Convertir des fichiers afin de faciliter l’analyse des mots

vicIl n’y a rien de plus agréable pour un chef de projet que de recevoir un document Word (ou tout autre fichier-texte) en vue d’établir un devis et un plan de travail. Compte tenu du grand nombre de logiciels permettant de déterminer le nombre de mots présents dans un document, la réalisation d’un devis pour ce type de format est plus rapide, plus précise et plus facile. Hélas, la réalité du travaille n’est pas aussi arrangeante. La plupart du temps nous recevons des fichiers .pdf ou .jpeg truffés d’images, de tableaux, de textes manuscrits, et même pire, des copies numérisées de texte. Puisque nous ne pouvons nous permettre de deviner le nombre de mots d’un document en vue d’établir le devis pour le client, nous devons avoir recours à d’autres procédés pour faire ce calcul. Par ailleurs, le devis doit prendre en compte non seulement le nombre de mots, mais aussi le nombre d’images, les images contenant du texte, les en-têtes, les pieds de page et d’autres éléments qui peuvent être contenus dans un document donné.

Heureusement, nous disposons de plusieurs logiciels qui nous permettent d’analyser les fichiers. Lorsque nous ouvrons un fichier .pdf et que nous voyons que celui-ci est propre (c’est-à-dire que le texte est aligné et net), que toutes les lettres sont parfaitement claires et distinctes des images, nous utilisons un logiciel appelé Solid Converter PDF. Celui-ci reçoit le fichier .pdf et le convertit en format MS Word (il est également possible de convertir en texte brut, .rtf ou .xml). A partir de là, nous chargeons le fichier dans Trados, ou Wordfast ou Memsource afin de déterminer le nombre de mots (le plus souvent, nous réalisons ce comptage dans au moins deux logiciels différents afin d’obtenir une analyse précise). Cependant, trop souvent nous recevons des fichiers illisibles, numérisés, ou remplis d’images et de tableaux. Dans ce cas, les chefs de projets ont recours un autre logiciel, tout aussi fiable qu’indispensable : ABBYY FineReader. Ce programme pré-numérise d’abord le fichier, puis c’est au chef de projet de vérifier chaque page du document afin de modifier, si besoin, ce qui a été analysé en vue de la numérisation finale. ABBYY, comme nous l’appelons au bureau, permet de séparer le texte, les images et les tableaux. Il convient de mettre en évidence les différentes zones en fonction de leur nature (que ce soit du texte, de l’image ou un tableau) puis de lancer le programme qui va « lire » le fichier ainsi analysé. Il suffit ensuite de répéter le processus de page en page jusqu’à ce que le document ait été entièrement analysé. ABBYY convertit enfin le document en un fichier Word pour permettre la suite du processus.

Avec d’excellents outils comme cela permettant d’obtenir des résultats plus fiables, nous nous assurons de fournir au client un devis le plus précis possible.

Pour l’article original en anglais, veuillez cliquer ici : « Converting Different File Formats for Easier Word Analysis«