Comprendre pour mieux choisir : le cas des correcteurs orthographiques

Le besoin

La solution

Ils peuvent vous aider

Le besoin

Comprendre le fonctionnement et les limites des correcteurs orthographique et grammatical

Je travaille dans le milieu de l'édition. La nature de mon travail fait que je suis amené à rédiger régulièrement des rapports et parfois, à corriger des écrits produits par d'autres personnes. De nos jours, il est courant de recourir à des outils de correction automatique car ces derniers, en proposant une correction en temps réel, réduisent considérablement le risque de commettre des erreurs de diverses natures (orthographe, grammaire, style, etc.). Par ailleurs, ces outils facilitent aussi le processus de relecture dans la mesure où ils réduisent le temps nécessaire à la correction des erreurs orthographiques et grammaticales, ce qui, par conséquent, permet aux relecteurs de mieux se concentrer sur le fonds que sur la forme. J'aimerais connaître mieux le fonctionnement ainsi que les limites de ce type d'outils afin de m'en servir à bon escient.

La solution

Comprendre les correcteurs orthographique et grammatical

Correction automatique de textes, une solution sollicitée par de nombreux métiers

Éditeurs, journalistes ou toutes personnes soucieuses de la qualité de ses écrits, nombreux sont les profils à qui peut profiter l'utilisation d'un outil de correction automatique. La demande importante de ce type de services justifie le nombre élevé de produits existants déjà : en anglais, on trouve notamment Grammarly et pour le français, Antidote, Cordial, et tant d'autres.

En effet, les correcteurs automatiques sont d'une aide précieuse pour la rédaction de tout type de textes. Faisant souvent partie intégrante des logiciels plus avancés comme des assistants d'écriture, ce type d'outils ont pour principales fonctions d'améliorer un texte sur divers aspects en détectant, soulignant, et enfin, proposant des corrections à des écarts à la norme d'une langue donnée. Ces derniers peuvent être tout simplement de nature formelle comme des erreurs orthographiques, ou bien de nature grammaticale ou stylistique.

Cependant, à quel point ces outils sont-ils pertinents ? Suffirait-il de cliquer sur la correction par défaut proposée par ce type d'outils pour produire un texte « sans faille » ? Comment les solutions ont évolué au fil du temps et surtout, à l'ère de l'intelligence artificielle ? Quels sont les critères permettant de différencier les produits ? Les réponses à ces questions nécessitent une connaissance pratique du fonctionnement de la correction automatique qui pourrait ensuite guider ses choix d'opter pour un produit plutôt qu'un autre.

Évolution des correcteurs automatiques

Une histoire de clefs

Le premier outil de correction automatique remonte aux années 60. À l'époque, la correction se faisait surtout au niveau orthographique et permettait entre autres de corriger des textes convertis à partir des documents numérisés (on parle de reconnaissance optique de caractères, OCR en anglais). Le principe de fonctionnement est fort simple : il s'agit de transformer chaque mot en une clef selon un algorithme qui essaie de supprimer les caractères contenant le moins d'information, la quantité d'information étant considérée comme inversement proportionnelle à la fréquence. Ainsi le caractère "i" est moins informatif que "z" car cette dernière lettre est de loin moins fréquente à observer dans un texte.

La position d'un caractère est aussi une information pertinente, car la première et la dernière lettre d'un mot sont souvent plus importantes que celles se trouvant à d'autres positions. Le correcteur réduit ainsi tous les mots d'un texte en clefs et en restituant les clefs en mots, cette méthode permet de transmettre des erreurs comme « abrviation » en « abréviation » car ces deux mots partagent la même clef « brvn ».

Bien que la performance d'une telle méthode soit assez bonne sur un petit corpus de textes sélectionnés par l'auteur de l'article¹, elle se trouve rapidement dégradée sur d'autres textes.

Vous avez dit distance ?

En 1965, Vladimir Levenshtein définit la notion de distance d'édition (appelée aussi distance de Levenshtein) qui représente le nombre d'opérations minimal pour passer d'un mot à l'autre.

Les types d'opérations sont au nombre de 3 : insertion, élision et substitution. Ainsi la distance entre "ammoor" et "amour" est 2. Grâce à la distance de Levenshtein, les correcteurs automatiques ont pu hiérarchiser les multiples corrections à une erreur. La correction "amour" serait donc préférable que "armoire" pour la forme erronée qu'est "ammour".

Par la suite, de nombreux paramètres ont été intégrés pour raffiner cette famille de méthodes. On peut citer entre autres :

la proximité des touches sur le clavier : "acère" serait donc plus probable que "amère" pour corriger "axere" bien que la distance de Levenshtein soit 2 dans les deux cas, car "c" et "x" sont plus proches sur le clavier ;
la proximité phonétique : "Oiseau" serait plus probable que "oison" pour corriger "oiso" malgré une distance moins grande séparant les deux derniers ;
la fréquence lexicale.

La grammaire et le style

Bien que les approches basées sur la distance aient amélioré significativement la performance des correcteurs, force est de constater que la correction se limite encore largement aux erreurs orthographiques. En effet, il manque encore une dernière pièce au puzzle : le contexte.

La technique la plus classique consiste à recourir à la probabilité de ce qu'on appelle des N-grammes (séquence de N mots), estimée à partir d'un grand nombre de textes. À titre d'exemple, en s'appuyant sur le fait que la séquence "la culture française" est plus probable que "la culture français" (cliquez sur les deux trigrammes pour visualiser le nombre de textes contenant ces deux suites de mots dans la bibliothèque numérique Gallica), le correcteur automatique est en mesure de détecter l'erreur grammaticale en question, alors que tous les mots contenus dans les deux trigrammes sont de bonne forme.

Deux techniques relevant du Traitement automatique des Langues (TAL) viendront ensuite complémenter cette méthode : l'étiquetage morpho-syntaxique qui attribue à chaque mot d'un texte une partie du discours (POS : nom, verbe, etc.) et l'analyse syntaxique qui permet d'analyser la structure syntaxique d'une phrase. Il est dès lors possible d'utiliser la probabilité des N-grammes POS (une séquence de trois verbes à la suite - notée VVV - est par exemple peu probable) ainsi que de détecter certaines erreurs grammaticales en appliquant des règles (l'analyseur syntaxique signalera une erreur si un nom singulier est associé à un adjectif au pluriel).

Il est à noter que le contexte peut aussi prendre une autre connotation si l'on considère que le type de documents dans lequel apparaît un mot/N-gramme constitue aussi un contexte. Il sera dès lors possible de proposer des suggestions de correction sur le plan stylistique en associant les mots/expressions à un type de textes particulier (littéraire, administratif, etc.).

L'approche traditionnelle combinant la distance et d'autres paramètres mentionnés ci-dessus est encore au cœur de la plupart des correcteurs d'aujourd'hui et il est fort probable que cela soit le cas de votre correcteur favori. De ce fait, il n'est pas possible de parvenir à un texte « parfait » en choisissant systématiquement la correction par défaut (la première correction) proposée par le correcteur automatique. En effet, bien que l'intégration d'un grand nombre de paramètres permette de choisir la correction la plus probable, cette dernière n'est en aucun cas à l'abri d'erreurs. L'intervention humaine reste nécessaire.

Et l'intelligence artificielle dans tout cela ?

Vous aurez sûrement remarqué, lecteur averti, que les techniques mentionnées jusqu'ici n'ont rien de « intelligent » par rapport aux mots tendance du type Machine Learning/Deep Learning.

Il convient d'abord de noter que le Machine Learning est une composante tout à fait présente dans les correcteurs orthographique et grammatical d'aujourd'hui, tant il est difficile pour l'humain de déterminer le « poids » adéquat à attribuer à chacun des paramètres qui sont par ailleurs toujours plus nombreux à considérer.

Ce constat est cependant pertinent dans le sens où il existe une autre catégorie de correcteurs qui, cette fois-ci, sont basés sur des réseaux de neurones (donc Deep Learning). Ce type de correcteurs, plus performants que les approches dites non neuronales, s'appuient sur les dernières avancées technologiques dans le domaine de la traduction automatique. En effet, il est tout à fait possible de considérer un texte à corriger comme un texte à traduire et le texte sans erreurs comme un texte traduit. Tout comme pour la traduction automatique, le développement du type de correcteurs « neuronaux » nécessite la construction d'un corpus composé de textes à corriger et de textes corrigés.

Que choisir ?

Si les correcteurs ortho-grammaticaux basés sur le Deep Learning sont plus performants, pourquoi la plupart des correcteurs actuels ne sont pas basés sur ce type de technologies ? Les raisons sont multiples et liées à des facteurs aussi bien humains que techniques :

Les correcteurs neuronaux sont moins adéquats pour corriger les textes en temps réel. Compte tenu de la façon dont sont « entraînés » ce type de correcteurs, le processus de correction s'opère souvent au niveau phrastique. En revanche, les approches traditionnelles peuvent corriger au niveau des mots. Dans le cas de la rédaction de textes, il peut être préférable que le correcteur corrige le texte au fur et à mesure que l'auteur écrit.
En comparaison des approches traditionnelles, les correcteurs neuronaux sont moins rapides et consomment plus de ressources de calcul, toutes choses égales par ailleurs.
Les approches traditionnelles sont plus interprétables, dans la mesure où les corrections s'accompagnent presque toujours d'une explication, ce qui n'est pas le cas des correcteurs neuronaux.
La plupart des correcteurs non neuronaux peuvent être facilement intégrés à des logiciels courants comme Chrome et la Suite Office, ce qui facilite l'emploi de ces correcteurs dans des scénarios très divers.

¹Blair, C. R. (1960). A program for correcting spelling errors. Information and Control, 3(1), 60-67.

--- texte rédigé par Xiaoou Wang, ingénieur-chercheur en Traitement Automatique des Langues

Points d'attention

Indispensables à la plupart des gens utilisant l'ordinateur pour rédiger des textes de tout genre, les correcteurs orthographique et grammatical d'aujourd'hui présentent encore des limites et restent des outils nécessitant l'intervention humaine. Bien que le recours aux réseaux de neurones ait abouti à une meilleure performance de correction, de nombreux autres facteurs (vitesse, interprétabilité, intégration à d'autres logiciels bureaucratiques) sont à considérer afin de choisir la solution adaptée à son besoin.

Par Xiaoou Wang

Ingénieur-Chercheur en Traitement automatique des Langues, fondateur de https://aiprototypes.com/.

Ils peuvent vous aider

Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.

Lingua Custodia est une Fintech leader du Traitement Automatique des Langues (TAL) pour la Finance basée en France et au Luxembourg. Elle a développé son expertise avec une offre pointue de traduction automatique spécialisée par type de document financier. La société propose aujourd'hui également des services de transcription automatique, des services d'analyse linguistique de document et des services d'extraction de données via sa plateforme en ligne ou par API. Ses clients sont des institutions financières et les départements financiers de grandes sociétés et ETI.

Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.

Le Hub France IA est une association à but non lucratif accélérant le développement et l’adoption d’une IA responsable, éthique et souveraine par l’ensemble du tissu économique. Le Hub France IA, c’est 200+ membres et 50+ partenaires : start-ups, PME, ETI, grands groupes et institutions dont l’objectif est d’accompagner la stratégie nationale pour l’intelligence artificielle.

Mobidys adapte des livres de littérature jeunesse d edtieur dans une version numérique accessible au public dys. Nos livres de format epub3 intègrent des outils d aide à la lecture pour personnaliser l expérience de lecture à leurs besoins (narration synchronisée, mise en forme du texte, mise en évidence d unites linguistiques pertinentes ou des unités de sens, ajouts d informations sémantiques...)

Yseop est leader en Generative AI pour les industries pharmaceutiques, révolutionnant l'approche des solutions d'automatisation de contenu grâce à sa plateforme d'Intelligence Artificielle centrée sur l'humain. Yseop réimagine l'avenir de la rédaction scientifique pour accélérer la mise sur le marché de médicaments destinés aux personnes qui en ont le plus besoin. Proposant une suite d'applications spécifiques à l'industrie pharmaceutique et une technologie de Génération de Langage Naturel hybride de pointe, qui allie symbolic, machine learning et techniques LLM, Yseop garantit la facilité, l'évolutivité et la sécurité d'application même pour les tâches d'automatisation de contenu les plus exigeantes à réaliser au sein de toute l'entreprise.

QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.

L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Qu'est-ce que la normalisation de textes ?

Quand est-il nécessaire de normaliser des textes ? La normalisation de textes consiste à préparer les textes pour effectuer un traitement automatique du contenu de plus...

Comment un ordinateur peut-il aider à traduire ?

De quand date la traduction automatique ? Les premières solutions de traduction automatique et de traduction assistée par ordinateur sont apparues dès le milieu du XXème...

Comment fonctionne la génération de texte ?

Que signifie le sigle NLG ? NLG est l’acronyme anglais de « Natural Language Generation », en d’autres termes génération (de textes) en langage naturel. Il s’agit de faire...

Ces études de cas peuvent aussi vous intéresser

Analyse de contenu

Le TAL pour la révision des normes d’écriture de documents techniques

Réviser des normes d’écriture de documents techniques

Je suis responsable qualité et chargé des normes et procédures dans le secteur de l’aéronautique. Je dois répondre à des défis tels que la production ou la révision de manuels de procédures ou de documents nécessitant une structure de langue contrôlée, qui doivent être précis et clairs. Ces documents doivent être conformes à des normes internationales rigoureuses, ils sont essentiels pour garantir la sécurité et l'efficacité des opérations. Une erreur, même minime, peut entraîner de graves conséquences humaines ou économiques.

Découvrir

Analyse de contenu, fouille de texte, Organisation d'information

Étude de marché automatisée : une force de travail Multi-Agents pour l’analyse des tendances

Surcharge informationnelle et latence d'analyse

Pour un cabinet de conseil, la veille concurrentielle devient vite un goulet d'étranglement lorsqu'il faut croiser des sources multiples, mouvantes et hétérogènes. Une orchestration multi-agents permet d'automatiser la collecte, la qualification et la restitution des signaux faibles, tout en conservant une validation humaine sur les conclusions sensibles.

Découvrir

Analyse de contenu, Génération de contenu

Génération de données synthétiques : produire des commentaires de réseaux sociaux pour mieux préparer une campagne marketing grâce à l’ingénierie de prompt

Anticiper les retours des utilisateurs sur des publications sur les réseaux sociaux.

Je suis un chef de projet marketing travaillant sur une campagne de lancement d'un produit cosmétique. J'ai préparé des publications qui seront diffusées sur les différents comptes de réseaux sociaux de notre marque, mais je ne sais pas comment ces dernières seront reçues.

Découvrir