Le TAL pour la révision des normes d’écriture de documents techniques
|
|
Le besoin
Réviser des normes d’écriture de documents techniques
Je suis responsable qualité et chargé des normes et procédures dans le secteur de l’aéronautique.
Je dois répondre à des défis tels que la production ou la révision de manuels de procédures ou de documents nécessitant une structure de langue contrôlée, qui doivent être précis et clairs. Ces documents doivent être conformes à des normes internationales rigoureuses, ils sont essentiels pour garantir la sécurité et l'efficacité des opérations. Une erreur, même minime, peut entraîner de graves conséquences humaines ou économiques.
Les règles régissant la rédaction des textes normés varient selon l'industrie et l'application, mais elles ont toutes un point commun : l'exigence de précision et de clarté. Dans l'aéronautique, nous utilisons généralement une langue contrôlée nommée ASD STE-100 ou plus simplement STE (Simplified Technical English), pour la rédaction des textes techniques en anglais.
Pour les textes en français nous nous référons à une version équivalente du STE créée par le GIFAS (Groupement des Industries Françaises Aéronautiques et Spatiales), nous parlons dans ce cas du Guide du français rationalisé. Cette norme de langue utilisée pour les manuels de maintenance, entre autres, spécifie non seulement le contenu, mais aussi la forme des instructions.
Voici une liste non exhaustive de règles d’écriture a respecter :
- ne pas utiliser plus de trois noms à la suite,
- les phrases doivent comporter un nombre de mots à ne pas dépasser,
- utiliser l’impératif pour les instructions,
- l’utilisation de la voix passive ou du temps futur est proscrite,
- l’utilisation de certains verbes est proscrite,
Je cherche une solution automatisée capable d'analyser, et repérer les écarts à une norme établie, pour faciliter la relecture et la correction d’éventuelles erreurs. L’objectif est d’assurer une qualité de rédaction conforme aux normes et de gagner du temps en relecture dans une masse de documents.
La solution
Les analyseurs syntaxiques pour la vérification des normes textuelles
Les outils de Traitement Automatique des Langues (TAL), et en particulier les analyseurs syntaxiques, sont d'une aide précieuse pour relever ces défis. Ces technologies permettent de décomposer les textes en éléments structurels, facilitant la détection d'erreurs potentielles et la vérification de la conformité avec des normes établies.
Détecter des structures de langue grâce aux analyseurs syntaxiques
Que fait un analyseur syntaxique ?
Un analyseur syntaxique est un outil informatique d'extraction d'information sur des données textuelles. Employé dans le TAL, ces systèmes sont conçus à partir de règles linguistiques, d’apprentissage automatique ou d'une combinaison des deux techniques.
Ce type d’outil permet plusieurs opérations sur le texte : en suivant un algorithme déterminé, l’analyseur syntaxique segmente le texte en phrases, puis segmente les phrases en mots, on nomme cette étape la phase de tokenisation. L’analyseur syntaxique attribue la forme de base de chaque mot segmenté, par exemple nous obtiendrons la forme infinitive des verbes conjugués. De plus, l’analyseur syntaxique attribue aussi une étiquette contenant la catégorie grammaticale de chaque mot . Et pour finir, l’analyseur informe sur les relations de dépendance entre les mots.
Segmentation
La segmentation (ou tokenisation) consiste à identifier dans une phrase les différents mots (segments) qui la composent. Par exemple, pour la phrase :
- Enclenchez les manivelles bleues
la tokenisation va permettre d'identifier les termes :
- "Enclenchez", "les", "manivelles", "bleues"
Cette phase de segmentation doit prendre en compte certaines difficultés, et notamment :
- les mots composés comme "chemin de fer" ou "tableau de bord",
- les marques de ponctuation dans les mots telles que "G.P.S" ou" l'avion",
Normalisation des mots
Il s'agit de la lemmatisation, cette opération renvoie le terme "vedette" des mots segmentés, ainsi l’analyseur syntaxique applique les opérations suivantes comme renvoyer le verbe à l’infinitif, et nettoyer les noms de la marque du pluriel ou le féminin des adjectifs.
- Enclenchez les manivelles bleues
la lemmatisation identifiera les formes suivantes :
- "Enclencher", "le", "manivelle", "bleu"
Cette phase de lemmatisation doit prendre en compte certaines difficultés :
- les formes verbales nombreuses à réunir sous une même forme : "es", "est", "sommes", êtes" appartiennent au verbe "être",
- la gestion des homographes, par exemple la forme "suis" peut correspondre, au verbe "être" tout comme au verbe "suivre" selon le contexte,
- les formes verbales comme "surpris" qui peut être à la fois l'adjectif "surpris" ou le verbe "surprendre" au mode participe passé,
Etiquetage
Ensuite, l’analyseur syntaxique, lors de la phase d'étiquetage (ou POS-tagging) attribue une étiquette correspondant à la catégorie grammaticale des mots :
- Enclenchez les manivelles bleues
Cela donnerait :
- "Enclenchez"→ (Verbe), "les"→ (Déterminant), "manivelles"→ (Nom), "bleues" → (Adjectif)
Cette phase d'étiquetage rencontre les difficultés suivantes :
- les formes verbales, nominales ou adjectivales nombreuses,
- les homographes tels que "reste" pouvant être un nom ou un verbe selon le contexte,
Reconnaissance des structures
Enfin, le système analyse les dépendances syntaxiques entre les mots, en renvoyant par exemple que "Enclenchez" est le verbe principal, et "manivelle" est le complément d'objet direct (COD) affecté par l'action.
Sans trop entrer dans les détails de cette phase complexe des analyseurs syntaxiques, on peut rencontrer différentes problématiques :
- la désambiguïsation des phrases : "Le manutentionnaire répare l'automate sur le toit", la désambiguïsation doit identifier si c'est le manutentionnaire ou l'automate qui est sur le toit,
- la forme passive : "l'employé est rentré, et le stagiaire est accompagné", ce sont deux verbes précédés de l’auxiliaire "être" mais le premier est à la forme active et le second à la forme passive,
Pour résumer un analyseur syntaxique permet généralement de faire ces 4 étapes :
- tokenisation,
- lemmatisation,
- POS-tagging
- identification des dépendances syntaxiques.
Ces différentes étapes peuvent être utiles pour la vérification de nomes d’écritures.
Comment utiliser les analyseurs syntaxiques ?
Dans cette partie, il sera illustré de manière plus concrète, les concepts abordés précédemment en imaginant des règles de normes. Les normes STE et Guide du français rationalisé serviront de référence pour montrer comment les analyseurs syntaxiques peuvent apporter des solutions.
Utilité de la tokenisation
Il peut s’avérer utile de compter le nombre de mots ou extraire des mots techniques dans un texte. Cependant il ne suffit pas de prendre chaque chaînes de mots entre les espaces d’une phrase comme ci-dessous.
Exemple : "Empruntez le chemin de fer numéro 4."
Une tokenisation naïve renverrait : ["Empruntez", "le","chemin", "de ", "fer", "numéro", "4"]
Alors qu’une tokenisation raisonnée donnerait : ["Empruntez","le", "chemin de fer", "numéro","4"]
Selon les règles établies par les normes on peut considérer "chemin de fer" comme une seule unité de sens donc un seul mot dans le décompte dans la segmentation. Cela il peut être utile de le segmenter de cette manière pour extraire l’occurrence depuis un texte.
Utilité de la lemmatisation
Dans un cas de figure où une norme tend à proscrire l’utilisation du terme "canal" dans un texte. Il faut pouvoir le repérer dans toutes ses formes.
Exemple : "Ouvrez le canal 5. Fermez les canaux 6 et 7."
La lemmatisation renverra sous la même forme les termes "canal" et "canaux". Grâce à la lemmatisation il est possible d'extraire 2 occurrences du mot "canal" dans le texte ci-dessus.
Utilité du POS-tagging
Dans les texte de procédures, il est conseillé par le STE de n’avoir qu’une instruction par phrase. Pour vérifier les procédures, il est possible d'observer le nombre de verbes par phrase.
Exemple : "Vissez l’écrou 7, puis desserrez la vis B-33 puis retirez la protection"
Dans la phrase présentée, le POS-tagging permet de signaler qu’elle contient 3 verbes, afin d'inciter un rédacteur à modifier une instruction qui comporte trop d’informations procédurales.
Utilité du repérage des dépendances
Certaines normes déconseillent les phrases rédigées à la voix passive, considérée parfois inappropriée dans un manuel technique où la voix active est requise.
Par exemple dans la phrase :
- L'avion est réparé par le technicien.
Les analyseurs syntaxiques identifient que le verbe "réparer" est à la voix passive, pour transmettre l’information au relecteur et ainsi corriger la phrase pour obtenir la phrase
- Le technicien répare l'avion.
Points d'attention
Bien que les analyseurs syntaxiques offrent d’intéressants résultats, leur taux de réussite n'est pas parfait. Certains acteurs du TAL développent des systèmes d’aide à la relecture et connaissent généralement la marge d’erreur que peut comporter ces systèmes.
La relecture humaine reste essentielle dans ce domaine car ces outils assistent seulement les rédacteurs et les relecteurs mais ne remplacent pas l'expertise et la responsabilité humaine.