Comprendre pour mieux choisir : le cas des correcteurs orthographiques

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Comprendre le fonctionnement et les limites des correcteurs orthographique et grammatical

Je travaille dans le milieu de l'édition. La nature de mon travail fait que je suis amené à rédiger régulièrement des rapports et parfois, à corriger des écrits produits par d'autres personnes. De nos jours, il est courant de recourir à des outils de correction automatique car ces derniers, en proposant une correction en temps réel, réduisent considérablement le risque de commettre des erreurs de diverses natures (orthographe, grammaire, style, etc.). Par ailleurs, ces outils facilitent aussi le processus de relecture dans la mesure où ils réduisent le temps nécessaire à la correction des erreurs orthographiques et grammaticales, ce qui, par conséquent, permet aux relecteurs de mieux se concentrer sur le fonds que sur la forme. J'aimerais connaître mieux le fonctionnement ainsi que les limites de ce type d'outils afin de m'en servir à bon escient.

La solution

Comprendre les correcteurs orthographique et grammatical

Correction automatique de textes, une solution sollicitée par de nombreux métiers

Éditeurs, journalistes ou toutes personnes soucieuses de la qualité de ses écrits, nombreux sont les profils à qui peut profiter l'utilisation d'un outil de correction automatique. La demande importante de ce type de services justifie le nombre élevé de produits existants déjà : en anglais, on trouve notamment Grammarly et pour le français, Antidote, Cordial, et tant d'autres.

En effet, les correcteurs automatiques sont d'une aide précieuse pour la rédaction de tout type de textes. Faisant souvent partie intégrante des logiciels plus avancés comme des assistants d'écriture, ce type d'outils ont pour principales fonctions d'améliorer un texte sur divers aspects en détectant, soulignant, et enfin, proposant des corrections à des écarts à la norme d'une langue donnée. Ces derniers peuvent être tout simplement de nature formelle comme des erreurs orthographiques, ou bien de nature grammaticale ou stylistique.

Cependant, à quel point ces outils sont-ils pertinents ? Suffirait-il de cliquer sur la correction par défaut proposée par ce type d'outils pour produire un texte « sans faille » ? Comment les solutions ont évolué au fil du temps et surtout, à l'ère de l'intelligence artificielle ? Quels sont les critères permettant de différencier les produits ? Les réponses à ces questions nécessitent une connaissance pratique du fonctionnement de la correction automatique qui pourrait ensuite guider ses choix d'opter pour un produit plutôt qu'un autre.

Évolution des correcteurs automatiques

Une histoire de clefs

Le premier outil de correction automatique remonte aux années 60. À l'époque, la correction se faisait surtout au niveau orthographique et permettait entre autres de corriger des textes convertis à partir des documents numérisés (on parle de reconnaissance optique de caractères, OCR en anglais). Le principe de fonctionnement est fort simple : il s'agit de transformer chaque mot en une clef selon un algorithme qui essaie de supprimer les caractères contenant le moins d'information, la quantité d'information étant considérée comme inversement proportionnelle à la fréquence. Ainsi le caractère "i" est moins informatif que "z" car cette dernière lettre est de loin moins fréquente à observer dans un texte.

La position d'un caractère est aussi une information pertinente, car la première et la dernière lettre d'un mot sont souvent plus importantes que celles se trouvant à d'autres positions. Le correcteur réduit ainsi tous les mots d'un texte en clefs et en restituant les clefs en mots, cette méthode permet de transmettre des erreurs comme « abrviation » en « abréviation » car ces deux mots partagent la même clef « brvn ».

Bien que la performance d'une telle méthode soit assez bonne sur un petit corpus de textes sélectionnés par l'auteur de l'article1, elle se trouve rapidement dégradée sur d'autres textes.

Vous avez dit distance ?

En 1965, Vladimir Levenshtein définit la notion de distance d'édition (appelée aussi distance de Levenshtein) qui représente le nombre d'opérations minimal pour passer d'un mot à l'autre.

Les types d'opérations sont au nombre de 3 : insertion, élision et substitution. Ainsi la distance entre "ammoor" et "amour" est 2. Grâce à la distance de Levenshtein, les correcteurs automatiques ont pu hiérarchiser les multiples corrections à une erreur. La correction "amour" serait donc préférable que "armoire" pour la forme erronée qu'est "ammour".

Par la suite, de nombreux paramètres ont été intégrés pour raffiner cette famille de méthodes. On peut citer entre autres :

  • la proximité des touches sur le clavier : "acère" serait donc plus probable que "amère" pour corriger "axere" bien que la distance de Levenshtein soit 2 dans les deux cas, car "c" et "x" sont plus proches sur le clavier ;
  • la proximité phonétique : "Oiseau" serait plus probable que "oison" pour corriger "oiso" malgré une distance moins grande séparant les deux derniers ;
  • la fréquence lexicale.

La grammaire et le style

Bien que les approches basées sur la distance aient amélioré significativement la performance des correcteurs, force est de constater que la correction se limite encore largement aux erreurs orthographiques. En effet, il manque encore une dernière pièce au puzzle : le contexte.

La technique la plus classique consiste à recourir à la probabilité de ce qu'on appelle des N-grammes (séquence de N mots), estimée à partir d'un grand nombre de textes. À titre d'exemple, en s'appuyant sur le fait que la séquence "la culture française" est plus probable que "la culture français" (cliquez sur les deux trigrammes pour visualiser le nombre de textes contenant ces deux suites de mots dans la bibliothèque numérique Gallica), le correcteur automatique est en mesure de détecter l'erreur grammaticale en question, alors que tous les mots contenus dans les deux trigrammes sont de bonne forme.

Deux techniques relevant du Traitement automatique des Langues (TAL) viendront ensuite complémenter cette méthode : l'étiquetage morpho-syntaxique qui attribue à chaque mot d'un texte une partie du discours (POS : nom, verbe, etc.) et l'analyse syntaxique qui permet d'analyser la structure syntaxique d'une phrase. Il est dès lors possible d'utiliser la probabilité des N-grammes POS (une séquence de trois verbes à la suite - notée VVV - est par exemple peu probable) ainsi que de détecter certaines erreurs grammaticales en appliquant des règles (l'analyseur syntaxique signalera une erreur si un nom singulier est associé à un adjectif au pluriel).

Il est à noter que le contexte peut aussi prendre une autre connotation si l'on considère que le type de documents dans lequel apparaît un mot/N-gramme constitue aussi un contexte. Il sera dès lors possible de proposer des suggestions de correction sur le plan stylistique en associant les mots/expressions à un type de textes particulier (littéraire, administratif, etc.).

L'approche traditionnelle combinant la distance et d'autres paramètres mentionnés ci-dessus est encore au cœur de la plupart des correcteurs d'aujourd'hui et il est fort probable que cela soit le cas de votre correcteur favori. De ce fait, il n'est pas possible de parvenir à un texte « parfait » en choisissant systématiquement la correction par défaut (la première correction) proposée par le correcteur automatique. En effet, bien que l'intégration d'un grand nombre de paramètres permette de choisir la correction la plus probable, cette dernière n'est en aucun cas à l'abri d'erreurs. L'intervention humaine reste nécessaire.

Et l'intelligence artificielle dans tout cela ?

Vous aurez sûrement remarqué, lecteur averti, que les techniques mentionnées jusqu'ici n'ont rien de « intelligent » par rapport aux mots tendance du type Machine Learning/Deep Learning.

Il convient d'abord de noter que le Machine Learning est une composante tout à fait présente dans les correcteurs orthographique et grammatical d'aujourd'hui, tant il est difficile pour l'humain de déterminer le « poids » adéquat à attribuer à chacun des paramètres qui sont par ailleurs toujours plus nombreux à considérer.

Ce constat est cependant pertinent dans le sens où il existe une autre catégorie de correcteurs qui, cette fois-ci, sont basés sur des réseaux de neurones (donc Deep Learning). Ce type de correcteurs, plus performants que les approches dites non neuronales, s'appuient sur les dernières avancées technologiques dans le domaine de la traduction automatique. En effet, il est tout à fait possible de considérer un texte à corriger comme un texte à traduire et le texte sans erreurs comme un texte traduit. Tout comme pour la traduction automatique, le développement du type de correcteurs « neuronaux » nécessite la construction d'un corpus composé de textes à corriger et de textes corrigés.

Que choisir ?

Si les correcteurs ortho-grammaticaux basés sur le Deep Learning sont plus performants, pourquoi la plupart des correcteurs actuels ne sont pas basés sur ce type de technologies ? Les raisons sont multiples et liées à des facteurs aussi bien humains que techniques :

  1. Les correcteurs neuronaux sont moins adéquats pour corriger les textes en temps réel. Compte tenu de la façon dont sont « entraînés » ce type de correcteurs, le processus de correction s'opère souvent au niveau phrastique. En revanche, les approches traditionnelles peuvent corriger au niveau des mots. Dans le cas de la rédaction de textes, il peut être préférable que le correcteur corrige le texte au fur et à mesure que l'auteur écrit.
  2. En comparaison des approches traditionnelles, les correcteurs neuronaux sont moins rapides et consomment plus de ressources de calcul, toutes choses égales par ailleurs.
  3. Les approches traditionnelles sont plus interprétables, dans la mesure où les corrections s'accompagnent presque toujours d'une explication, ce qui n'est pas le cas des correcteurs neuronaux.
  4. La plupart des correcteurs non neuronaux peuvent être facilement intégrés à des logiciels courants comme Chrome et la Suite Office, ce qui facilite l'emploi de ces correcteurs dans des scénarios très divers.

 


1Blair, C. R. (1960). A program for correcting spelling errors. Information and Control3(1), 60-67.

--- texte rédigé par Xiaoou Wang, ingénieur-chercheur en Traitement Automatique des Langues

Points d'attention

Indispensables à la plupart des gens utilisant l'ordinateur pour rédiger des textes de tout genre, les correcteurs orthographique et grammatical d'aujourd'hui présentent encore des limites et restent des outils nécessitant l'intervention humaine. Bien que le recours aux réseaux de neurones ait abouti à une meilleure performance de correction, de nombreux autres facteurs (vitesse, interprétabilité, intégration à d'autres logiciels bureaucratiques) sont à considérer afin de choisir la solution adaptée à son besoin.

Par Xiaoou Wang
Ingénieur-Chercheur en Traitement automatique des Langues, fondateur de https://aiprototypes.com/.