Formats de fichiers pour la soumission académique : LaTeX, DOCX, PDF
Pourquoi les formats de soumission académique sont vraiment importants
Soumettre un article, ce n'est pas juste joindre un fichier et cliquer sur envoyer. Les éditeurs, les évaluateurs et les systèmes automatisés de gestion des manuscrits ont des exigences de format spécifiques. Une incompatibilité peut entraîner un rejet d'emblée de ton article avant même que quiconque n'ait lu le résumé. Par exemple, les revues Nature peuvent accepter un PDF initial, mais exigent des fichiers Word ou LaTeX modifiables pour les révisions. L'ACM Digital Library est encore plus stricte : utilise son modèle LaTeX officiel (acmart.cls) ou son équivalent Word, sinon ta soumission sera retournée sans évaluation si la mise en page en colonnes n'est pas correcte. Les trois formats qui règnent sur la publication académique — LaTeX (source .tex compilée en PDF), Microsoft Word (.docx) et le Portable Document Format (.pdf) — ont chacun leurs forces, leurs pièges et leurs casse-têtes de conversion. Savoir quand utiliser chacun d'eux et comment passer de l'un à l'autre sans massacrer ta bibliographie, la numérotation de tes équations ou tes figures est une compétence qui fait gagner un temps précieux. Demande à n'importe quel doctorant qui a perdu un week-end à reformater une thèse de DOCX en LaTeX parce que son département a changé ses exigences de modèle au dernier semestre. Cette galère est bien réelle. Cet article explore la réalité technique de chaque format et leurs parcours de conversion courants. Nous verrons où les outils automatisés comme CocoConvert peuvent être une bouée de sauvetage, et où ils ne le peuvent pas. Prétendre que chaque conversion est parfaite, c'est la recette du désastre, et il vaut mieux connaître les limites de tes outils avant d'être pressé par une échéance. Nous n'allons pas faire semblant que chaque conversion se fait sans perte ; ce serait malhonnête et finalement plus préjudiciable pour ta soumission.
LaTeX : la précision au détriment de l'accessibilité
LaTeX n'est pas un traitement de texte. C'est un système de composition. Tu écris du balisage en texte brut dans un fichier .tex, tu le compiles avec un outil comme TeX Live ou MiKTeX, et tu obtiens un PDF avec une précision typographique que Word ne peut tout simplement pas égaler, surtout pour les mathématiques. C'est pourquoi l'American Mathematical Society, l'IEEE et la plupart des publications en physique et en informatique exigent ou préfèrent fortement LaTeX. Tout est une question de reproductibilité : un fichier .tex, avec sa bibliographie .bib et ses figures, est un enregistrement complet et vérifiable de la manière dont le document a été construit. Le principal obstacle est la courbe d'apprentissage. Si tu es à l'aise pour installer des logiciels, tu peux mettre en place un environnement LaTeX fonctionnel en 30 à 90 minutes. Mais pour écrire ton premier article, tu devras constamment chercher des informations, même pour des tâches simples comme insérer une figure (`\includegraphics[width=0.8\linewidth]{fig1.pdf}`) ou faire une référence croisée à une section (`\ref{sec:methods}`). L'éditeur en ligne Overleaf a beaucoup simplifié les choses. Sa formule gratuite est généreuse pour les projets solo (6 Go de stockage, compilation en temps réel), mais tu voudras un abonnement payant pour une collaboration sérieuse sur de gros documents. La vraie puissance de LaTeX est la cohérence structurelle. La numérotation des équations, les compteurs de section et les clés de citation sont gérés de manière programmatique. Ajouter une nouvelle équation dans la section 2 et voir les 47 équations suivantes se renuméroter automatiquement n'est pas un luxe ; c'est une garantie d'exactitude. Compare ça à un fichier DOCX avec des numéros d'équation saisis manuellement qui se désynchronisent lors des révisions — une source fréquente d'erreurs publiées. Les fichiers sources .tex bruts sont du charabia pour un collaborateur non technique. Un co-auteur qui ne jure que par Word ne pourra pas modifier ton fichier de manière significative. Et oublie le simple flux de travail de « suivi des modifications » ; ça ne se transpose tout simplement pas à travers cette frontière de format sans outils spécialisés comme latexdiff.
DOCX : le compromis universel
Le format .docx de Microsoft Word est le format par défaut dans les sciences humaines, les sciences sociales et les revues médicales pour une bonne raison. C'est la langue des équipes éditoriales qui ne sont pas des programmeurs. Sa plus grande force est sa pure et simple accessibilité : pratiquement n'importe qui avec Word, Google Docs, LibreOffice ou Pages peut ouvrir et modifier un fichier .docx. Des fonctionnalités comme le suivi des modifications, les commentaires et l'historique des versions sont la pierre angulaire des flux de travail éditoriaux, et elles fonctionnent tout simplement au sein de l'écosystème .docx. Techniquement, un fichier .docx n'est qu'une archive ZIP pleine de fichiers XML. Si tu renommes un fichier de .docx en .zip et que tu l'extrais, tu trouveras le corps du texte dans `word/document.xml`, les définitions de style dans `word/styles.xml`, et un répertoire `word/_rels/` qui gère la cohésion du tout. C'est cette architecture structurée qui permet aux outils automatisés d'analyser et de convertir les fichiers DOCX vers d'autres formats. Pour le contenu technique, le DOCX montre ses faiblesses. Les mathématiques complexes en sont une grande. Les équations écrites avec l'éditeur natif de Word (Insertion → Équation, ou Alt + =) ne survivent souvent pas à la conversion. Elles sont stockées en OMML (Office Math Markup Language), qui doit être traduit en syntaxe MathML ou LaTeX. Cette traduction est peu fiable pour tout ce qui est plus complexe que de simples fractions. Une matrice avec un espacement personnalisé ou une équation alignée sur plusieurs lignes sera presque certainement massacrée. Et puis il y a le placement des figures. Quiconque a déjà essayé de finaliser un long document Word connaît la douleur de voir des images sauter d'une page à l'autre. L'habillage de texte par défaut de Word peut faire en sorte que les figures se déplacent lorsque le document est ouvert sur une machine avec un pilote d'imprimante par défaut différent — un bug connu qui existe depuis plus d'une décennie. C'est rédhibitoire pour les soumissions prêtes à l'impression où la mise en page doit être parfaite. La seule solution sûre est de définir chaque figure en position « Aligné sur le texte » (clic droit sur l'image → Habillage → Aligné sur le texte). Cela empêche le flottement, mais verrouille la position pour de bon.
PDF : le standard de soumission qui n'est pas toujours modifiable
Le PDF est ce que les évaluateurs lisent. C'est ce que la plupart des portails de soumission demandent pour une première évaluation. Le but même de ce format est de préserver la fidélité visuelle sur tous les appareils et systèmes d'exploitation. Un PDF créé sur un Mac avec la police Helvetica Neue aura un aspect identique sur une machine Windows qui ne possède pas cette police, car le format PDF intègre des sous-ensembles de polices par défaut. Dans le monde universitaire, tous les PDF ne se valent pas. Il y a les PDF « natifs numériques », qui sont générés en compilant du LaTeX ou en exportant depuis Word. Ils contiennent de vrais caractères de texte, des polices intégrées et des métadonnées structurelles. Les lecteurs d'écran peuvent les analyser, les moteurs de recherche peuvent les indexer, et tu peux copier-coller du texte avec précision. Et puis il y a les PDF scannés, qui ne sont que des images. Sans traitement OCR, il n'y a aucun texte sélectionnable. C'est juste une photo d'une page. Les revues exigent aussi de plus en plus la conformité PDF/A pour les soumissions d'archivage. La norme PDF/A-1b (ISO 19005-1) est un sous-ensemble strict du PDF qui interdit le chiffrement, exige que toutes les polices soient intégrées et proscrit les références à du contenu externe. Tu peux vérifier la conformité dans Adobe Acrobat Pro (Outils → Production d'imprimés → Contrôle en amont) en exécutant le profil « PDF/A-1b ». Si tu n'as pas la version Pro, les outils en ligne gratuits d'Acrobat ou des options open-source comme VeraPDF peuvent faire la validation pour toi. La plus grande force du PDF est aussi sa plus grande faiblesse pour les auteurs universitaires : il n'est pas conçu pour être modifié. Quand une revue demande des révisions, elle veut le fichier source — le `.tex` ou le `.docx` — pas le PDF. Essayer de modifier un PDF directement dans Acrobat peut fonctionner pour corriger une coquille, mais c'est un cauchemar pour tout ce qui est structurel. La vraie galère dans les flux de travail académiques vient de la tentative de reconvertir un PDF en quelque chose que tu peux réellement modifier.
Convertir entre les formats : ce qui marche et ce qui coince
Il existe six parcours de conversion entre ces trois formats : LaTeX→PDF, PDF→LaTeX, DOCX→PDF, PDF→DOCX, LaTeX→DOCX et DOCX→LaTeX. Ils ne sont pas tous égaux. Certaines conversions se font sans douleur. LaTeX→PDF est la référence absolue : exécuter `pdflatex` ou `xelatex` sur un fichier `.tex` bien formé crée un PDF parfait qui correspond à l'intention de l'auteur. C'est le seul parcours dans le travail académique qui soit vraiment sans perte. DOCX→PDF est également très fiable pour la plupart des documents. Utiliser la fonction intégrée de Word `Fichier → Enregistrer sous → PDF` ou l'équivalent dans LibreOffice te donnera un PDF propre. Tes polices, hyperliens et tableaux de base seront transférés correctement, bien que les SmartArt complexes ou les macros puissent ne pas l'être. Les choses se compliquent quand on essaie de revenir en arrière depuis un PDF. Le PDF→DOCX est le point où la plupart des outils, y compris CocoConvert, se heurtent aux limitations fondamentales du PDF. Pour un article simple, sur une seule colonne et sans mathématiques, un outil peut extraire le texte, reconstruire les paragraphes et récupérer les tableaux avec un succès décent, ne nécessitant qu'un nettoyage léger. Mais donne-lui un article IEEE à deux colonnes avec des équations, et le résultat sera un carnage. Le flux des colonnes sera incorrect, les équations deviendront des images non modifiables et les notes de bas de page pourraient se mélanger au corps du texte. CocoConvert est honnête à ce sujet — c'est un problème avec le format PDF, pas avec l'outil. Le PDF→LaTeX est encore pire. Ce n'est pas un parcours automatisé standard pour une bonne raison. Le convertisseur universel Pandoc ne prend même pas en charge le PDF en entrée. Bien que des outils comme `pdf2latex` existent, leur résultat est si brut que pour un article de 40 pages, tu passerais moins de temps à retaper le tout de zéro en LaTeX qu'à nettoyer la conversion automatisée. Qu'en est-il de l'aller-retour LaTeX↔DOCX ? Pandoc peut le faire (`pandoc input.docx -o output.tex`), mais c'est un compromis. Le contenu textuel sera converti, mais les équations sont gérées de manière incohérente et les styles Word personnalisés sont perdus. Passer de LaTeX à DOCX est similaire ; la structure est transférée, mais la magie spécifique à LaTeX comme les environnements de théorèmes personnalisés deviendra simplement des paragraphes de texte brut. En résumé : utilise CocoConvert pour ses points forts dans les conversions DOCX↔PDF et la gestion des formats d'image. Pour tout ce qui implique LaTeX, la meilleure et la plus honnête des recommandations est d'utiliser Pandoc directement ou les outils d'importation intégrés à Overleaf. Ils sont conçus pour ce travail spécifique et délicat.
Considérations sur la confidentialité lors du téléversement de fichiers académiques
Les articles académiques sont souvent sensibles. Ils peuvent contenir des données non publiées, des résultats en pré-publication, ou même des informations sur des sujets humains dans des domaines comme la médecine, le droit et les sciences sociales. Avant de téléverser un manuscrit sur un outil de conversion en ligne, tu dois savoir ce qu'il advient de ce fichier après avoir récupéré ta version convertie. La politique de CocoConvert est simple : les fichiers sont traités en mémoire pour la conversion et ne sont pas conservés sur ses serveurs. Tes fichiers sont automatiquement supprimés en moins d'une heure après le téléversement. Point crucial, aucun contenu de tes fichiers n'est utilisé pour entraîner des modèles de machine learning ou partagé avec qui que ce soit. Tout cela est détaillé dans la politique de confidentialité de CocoConvert, que tu peux et devrais consulter avant de téléverser quoi que ce soit. Pour les documents contenant des informations vraiment sensibles — données identifiables de participants, résultats d'essais cliniques non publiés, ou tout ce qui est sous accord de non-divulgation — la seule approche correcte est d'utiliser des outils locaux, hors ligne. N'utilise aucun service cloud, point barre. Pandoc est gratuit, open-source et fonctionne entièrement sur ta propre machine. LibreOffice peut exporter des PDF sans connexion internet. TeX Live compile les documents LaTeX localement. Si la politique de données de ton institution interdit de téléverser la recherche sur des services tiers (et beaucoup le font), ces outils locaux sont ta seule option conforme, peu importe ce qu'un service cloud promet. Pour la plupart des tâches académiques quotidiennes — comme convertir un brouillon, reformater un article pour une nouvelle publication, ou peaufiner ton CV — le risque de confidentialité lié à l'utilisation d'un convertisseur en ligne réputé est faible. Le test pratique est simple : si tu serais à l'aise d'envoyer le fichier par e-mail à un collègue, le téléverser sur un service de conversion avec une politique de confidentialité claire comporte un risque comparable.
Choisir le bon format pour ta soumission
Quel est le bon format pour ton article ? C'est celui que la revue ou la conférence t'impose. Point final. Si les directives aux auteurs disent « LaTeX en utilisant la classe elsarticle », envoyer un DOCX te vaudra un rejet ou un e-mail te demandant de reformater. Lire les directives de soumission avant d'écrire un seul mot, ce n'est pas faire du zèle ; c'est t'épargner une énorme prise de tête plus tard en choisissant la bonne chaîne d'outils dès le départ. Si tu as vraiment le choix, la décision dépend de ton contenu et de tes collaborateurs. Si ton article est lourd en mathématiques, en algorithmes ou en figures complexes, utilise LaTeX. La composition est meilleure, et la numérotation automatique t'évitera de faire des erreurs embarrassantes lors des révisions. Si tu es dans un domaine comme les sciences humaines où les éditeurs s'attendent à faire des modifications directement dans le fichier, utilise DOCX. Tout leur flux de travail est basé sur le suivi des modifications. Et si tu dois soumettre à plusieurs endroits avec des règles différentes, comme une conférence LaTeX et une revue DOCX ? La meilleure stratégie est d'écrire et de maintenir ton article en LaTeX comme source de référence. Quand tu as besoin d'un DOCX, utilise Pandoc pour le générer, puis nettoie le résultat à la main. Pour les articles à dominante textuelle, c'est moins pénible que ça en a l'air. Pour les articles avec beaucoup d'équations, c'est vraiment difficile. Alors, où se situe CocoConvert dans tout ça ? C'est ton outil de prédilection pour tout ce qui concerne les PDF. Utilise-le pour convertir un PDF final en DOCX pour des modifications rapides, pour générer un PDF propre à partir d'un DOCX pour une soumission initiale, ou pour changer les formats de figures (comme TIFF en PNG ou EPS en PDF) quand une revue a des exigences pointilleuses. Pour la conversion de base de LaTeX vers DOCX, utilise Pandoc. Et si tu tentes la redoutable conversion de DOCX vers LaTeX, accepte simplement qu'il te faudra prévoir du temps pour le nettoyage manuel, quel que soit l'outil que tu utilises. Aucun outil automatisé ne peut rendre cette conversion assez propre pour être soumise sans une relecture humaine attentive.