Traduire un document technique dans un contexte d'urgence

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Un outil de traduction technique fiable pour la traduction de documents commerciaux

Je suis commercial dans un grande institution financière à Milan. Nous avons reçu un appel d’offres de 50 pages en italien et nous avons deux semaines pour y répondre.

Nous devons dans un premier temps envoyer ce document au siège qui se situe aux Etats-Unis après l’avoir traduit en anglais. Là-bas, l’équipe en charge de répondre aux appels d’offre doit étudier le document, réfléchir aux tournures de phrase et éléments de langage à mettre en avant puis rédiger une réponse. Entre le temps de réflexion, les désaccords et la rédaction de la réponse en anglais, il s’est déjà écoulé une semaine et demie lorsque le document de réponse nous est transmis à Milan. Il ne reste donc plus que deux jours pour tout traduire en italien, sans perdre les éléments de langage soigneusement choisis par l’équipe américaine lors de la traduction et en y ajoutant du contexte local, propre à l’italien.

Quelle solution puis-je mettre en place pour gagner en efficacité et produire une traduction technique de qualité dans ce contexte d’urgence ?

La solution

Un outil d'aide à la traduction technique personnalisé et sécurisé

La traduction technique dans le domaine financier nécessite un outil personnalisé capable de prendre en compte un vocabulaire très spécifique. C’est la différence avec un traducteur multilingue classique qui va être performant sur des sujets plus basiques et généraux. Pour créer un tel outil technique, il faut collecter différents types de données afin de pouvoir entraîner un modèle d’intelligence artificielle pertinent et cohérent avec les besoins de l'utilisateur.

Construire un modèle avec plusieurs couches de données

L’objectif est de mettre en place un modèle d’apprentissage profond (Deep Learning  en anglais) constitué de plusieurs couches de données d’apprentissage.

Pour ce faire, il faut tout d’abord rassembler une grande quantité de données linguistiques multilingues : cela va permettre au modèle d’apprendre à construire des phrases grammaticalement correctes et d’assimiler beaucoup de vocabulaire dans différentes langues. Ce corpus est le cœur du modèle, la couche initiale de connaissances du langage. Cette étape est facilitée par l’explosion massive du volume de données présent sur le web, qui a notamment permis la mise à disposition de grands corpus multilingues et de modèles de langue pré-entrainés sur des millions de données.

A cette couche initiale vient s’ajouter une deuxième couche composée d’un ensemble de termes et expressions issus du domaine financier, afin d’entraîner le modèle sur un lexique plus spécifique et ciblé, propre au domaine d’activités de l’utilisateur.

Puis, une couche de présentations marketing et d’expertise en gestion va permettre d’élargir les connaissances du modèle à des notions liées au commerce et à la communication.

Personnaliser le modèle avec des données client

Pour finir, l’utilisateur va pouvoir ajouter à ces divers corpus d’entrainement ses propres données, c’est-à-dire des appels d’offres et autres documents utiles qu’il a déjà remplis par le passé afin de personnaliser au maximum le modèle à son besoin. En l’entraînant sur des données très similaires, composées d’éléments de langage et de tournures de phrase pertinentes soigneusement sélectionnés par des humains pour mettre en avant l’entreprise et ses produits ou services, le modèle va pouvoir générer des traductions à la fois techniques et percutantes d’un point de vue commercial.

Plus encore, le format d’entrée des documents à traduire doit être préservé en sortie, de manière à ce que l’utilisateur récupère une traduction directement au bon format, ce qui lui permettra d’envoyer sa réponse à l’appel d’offres immédiatement après relecture, sans retoucher la structure globale du document.

Fournir une traduction spécialisée et sécurisée

La mise en place d’un outil de traduction technique nécessite le respect de deux critères importants : l’entrainement du modèle sur des données spécifiques, propres au domaine d’activités et au besoin de l’utilisateur, mais aussi la sécurité des données, tout en gardant un outil rapide et efficace. En effet, l’utilisateur ne peut pas mettre des données confidentielles issues de son entreprise sur un outil de traduction en ligne qui ne peut garantir la protection de ses données. Mettre en place un outil dédié et personnalisé à ses propres besoins permet donc de valider ces deux critères.

Points d'attention

Les outils de traduction automatique restent des outils d’aide qui doivent être maitrisés. En effet, ils s’adressent à des problèmes complexes pour lesquels il n’existe pas une seule bonne réponse et il peut y avoir des accidents, tels que des erreurs d’hallucination dues à l’évolution rapide du langage ou bien à des choses qui n’avaient pas été prises en compte par le modèle lors de la phase d'entraînement.

Par exemple : « Les Gilets jaunes se sont exprimés vendredi dernier… »

Si l’existence de ce mouvement social n’apparaissait pas dans le corpus d’entrainement, le modèle va considérer qu’un gilet jaune est un vêtement qui ne parle pas et risque donc de modifier toute la phrase pour la rendre cohérente par rapport aux connaissances qu’il a accumulées.

Par ailleurs, il est assez difficile de traduire automatiquement des aspects culturels ou jeux de mots présents notamment dans des titres de journaux ou d’articles car le langage humain comporte des nuances complexes à saisir et à retranscrire dans une autre langue. Ce sont donc des éléments qui doivent être vérifiés en priorité lors de la relecture car ce sont aussi ceux qui sont les plus visibles et ont le plus grand impact négatif auprès des lecteurs en cas d’erreur de traduction.

De manière générale, le degré de confiance d’une traduction technique sera plus élevé sur un texte normé que sur un texte moins structuré, cela nécessitera donc moins de temps de relecture humaine.

Par Angeline Lacassagne
Linguiste informaticienne