Comprendre pour mieux choisir : le cas des correcteurs orthographiques

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Comprendre le fonctionnement et les limites des correcteurs orthographique et grammatical

Je travaille dans le milieu de l'édition. La nature de mon travail fait que je suis amené à rédiger régulièrement des rapports et parfois, à corriger des écrits produits par d'autres personnes. De nos jours, il est courant de recourir à des outils de correction automatique car ces derniers, en proposant une correction en temps réel, réduisent considérablement le risque de commettre des erreurs de diverses natures (orthographe, grammaire, style, etc.). Par ailleurs, ces outils facilitent aussi le processus de relecture dans la mesure où ils réduisent le temps nécessaire à la correction des erreurs orthographiques et grammaticales, ce qui, par conséquent, permet aux relecteurs de mieux se concentrer sur le fonds que sur la forme. J'aimerais connaître mieux le fonctionnement ainsi que les limites de ce type d'outils afin de m'en servir à bon escient.

La solution

Comprendre les correcteurs orthographique et grammatical

Correction automatique de textes, une solution sollicitée par de nombreux métiers

Éditeurs, journalistes ou toutes personnes soucieuses de la qualité de ses écrits, nombreux sont les profils à qui peut profiter l'utilisation d'un outil de correction automatique. La demande importante de ce type de services justifie le nombre élevé de produits existants déjà : en anglais, on trouve notamment Grammarly et pour le français, Antidote, Cordial, et tant d'autres.

En effet, les correcteurs automatiques sont d'une aide précieuse pour la rédaction de tout type de textes. Faisant souvent partie intégrante des logiciels plus avancés comme des assistants d'écriture, ce type d'outils ont pour principales fonctions d'améliorer un texte sur divers aspects en détectant, soulignant, et enfin, proposant des corrections à des écarts à la norme d'une langue donnée. Ces derniers peuvent être tout simplement de nature formelle comme des erreurs orthographiques, ou bien de nature grammaticale ou stylistique.

Cependant, à quel point ces outils sont-ils pertinents ? Suffirait-il de cliquer sur la correction par défaut proposée par ce type d'outils pour produire un texte « sans faille » ? Comment les solutions ont évolué au fil du temps et surtout, à l'ère de l'intelligence artificielle ? Quels sont les critères permettant de différencier les produits ? Les réponses à ces questions nécessitent une connaissance pratique du fonctionnement de la correction automatique qui pourrait ensuite guider ses choix d'opter pour un produit plutôt qu'un autre.

Évolution des correcteurs automatiques

Une histoire de clefs

Le premier outil de correction automatique remonte aux années 60. À l'époque, la correction se faisait surtout au niveau orthographique et permettait entre autres de corriger des textes convertis à partir des documents numérisés (on parle de reconnaissance optique de caractères, OCR en anglais). Le principe de fonctionnement est fort simple : il s'agit de transformer chaque mot en une clef selon un algorithme qui essaie de supprimer les caractères contenant le moins d'information, la quantité d'information étant considérée comme inversement proportionnelle à la fréquence. Ainsi le caractère "i" est moins informatif que "z" car cette dernière lettre est de loin moins fréquente à observer dans un texte.

La position d'un caractère est aussi une information pertinente, car la première et la dernière lettre d'un mot sont souvent plus importantes que celles se trouvant à d'autres positions. Le correcteur réduit ainsi tous les mots d'un texte en clefs et en restituant les clefs en mots, cette méthode permet de transmettre des erreurs comme « abrviation » en « abréviation » car ces deux mots partagent la même clef « brvn ».

Bien que la performance d'une telle méthode soit assez bonne sur un petit corpus de textes sélectionnés par l'auteur de l'article1, elle se trouve rapidement dégradée sur d'autres textes.

Vous avez dit distance ?

En 1965, Vladimir Levenshtein définit la notion de distance d'édition (appelée aussi distance de Levenshtein) qui représente le nombre d'opérations minimal pour passer d'un mot à l'autre.

Les types d'opérations sont au nombre de 3 : insertion, élision et substitution. Ainsi la distance entre "ammoor" et "amour" est 2. Grâce à la distance de Levenshtein, les correcteurs automatiques ont pu hiérarchiser les multiples corrections à une erreur. La correction "amour" serait donc préférable que "armoire" pour la forme erronée qu'est "ammour".

Par la suite, de nombreux paramètres ont été intégrés pour raffiner cette famille de méthodes. On peut citer entre autres :

  • la proximité des touches sur le clavier : "acère" serait donc plus probable que "amère" pour corriger "axere" bien que la distance de Levenshtein soit 2 dans les deux cas, car "c" et "x" sont plus proches sur le clavier ;
  • la proximité phonétique : "Oiseau" serait plus probable que "oison" pour corriger "oiso" malgré une distance moins grande séparant les deux derniers ;
  • la fréquence lexicale.

La grammaire et le style

Bien que les approches basées sur la distance aient amélioré significativement la performance des correcteurs, force est de constater que la correction se limite encore largement aux erreurs orthographiques. En effet, il manque encore une dernière pièce au puzzle : le contexte.

La technique la plus classique consiste à recourir à la probabilité de ce qu'on appelle des N-grammes (séquence de N mots), estimée à partir d'un grand nombre de textes. À titre d'exemple, en s'appuyant sur le fait que la séquence "la culture française" est plus probable que "la culture français" (cliquez sur les deux trigrammes pour visualiser le nombre de textes contenant ces deux suites de mots dans la bibliothèque numérique Gallica), le correcteur automatique est en mesure de détecter l'erreur grammaticale en question, alors que tous les mots contenus dans les deux trigrammes sont de bonne forme.

Deux techniques relevant du Traitement automatique des Langues (TAL) viendront ensuite complémenter cette méthode : l'étiquetage morpho-syntaxique qui attribue à chaque mot d'un texte une partie du discours (POS : nom, verbe, etc.) et l'analyse syntaxique qui permet d'analyser la structure syntaxique d'une phrase. Il est dès lors possible d'utiliser la probabilité des N-grammes POS (une séquence de trois verbes à la suite - notée VVV - est par exemple peu probable) ainsi que de détecter certaines erreurs grammaticales en appliquant des règles (l'analyseur syntaxique signalera une erreur si un nom singulier est associé à un adjectif au pluriel).

Il est à noter que le contexte peut aussi prendre une autre connotation si l'on considère que le type de documents dans lequel apparaît un mot/N-gramme constitue aussi un contexte. Il sera dès lors possible de proposer des suggestions de correction sur le plan stylistique en associant les mots/expressions à un type de textes particulier (littéraire, administratif, etc.).

L'approche traditionnelle combinant la distance et d'autres paramètres mentionnés ci-dessus est encore au cœur de la plupart des correcteurs d'aujourd'hui et il est fort probable que cela soit le cas de votre correcteur favori. De ce fait, il n'est pas possible de parvenir à un texte « parfait » en choisissant systématiquement la correction par défaut (la première correction) proposée par le correcteur automatique. En effet, bien que l'intégration d'un grand nombre de paramètres permette de choisir la correction la plus probable, cette dernière n'est en aucun cas à l'abri d'erreurs. L'intervention humaine reste nécessaire.

Et l'intelligence artificielle dans tout cela ?

Vous aurez sûrement remarqué, lecteur averti, que les techniques mentionnées jusqu'ici n'ont rien de « intelligent » par rapport aux mots tendance du type Machine Learning/Deep Learning.

Il convient d'abord de noter que le Machine Learning est une composante tout à fait présente dans les correcteurs orthographique et grammatical d'aujourd'hui, tant il est difficile pour l'humain de déterminer le « poids » adéquat à attribuer à chacun des paramètres qui sont par ailleurs toujours plus nombreux à considérer.

Ce constat est cependant pertinent dans le sens où il existe une autre catégorie de correcteurs qui, cette fois-ci, sont basés sur des réseaux de neurones (donc Deep Learning). Ce type de correcteurs, plus performants que les approches dites non neuronales, s'appuient sur les dernières avancées technologiques dans le domaine de la traduction automatique. En effet, il est tout à fait possible de considérer un texte à corriger comme un texte à traduire et le texte sans erreurs comme un texte traduit. Tout comme pour la traduction automatique, le développement du type de correcteurs « neuronaux » nécessite la construction d'un corpus composé de textes à corriger et de textes corrigés.

Que choisir ?

Si les correcteurs ortho-grammaticaux basés sur le Deep Learning sont plus performants, pourquoi la plupart des correcteurs actuels ne sont pas basés sur ce type de technologies ? Les raisons sont multiples et liées à des facteurs aussi bien humains que techniques :

  1. Les correcteurs neuronaux sont moins adéquats pour corriger les textes en temps réel. Compte tenu de la façon dont sont « entraînés » ce type de correcteurs, le processus de correction s'opère souvent au niveau phrastique. En revanche, les approches traditionnelles peuvent corriger au niveau des mots. Dans le cas de la rédaction de textes, il peut être préférable que le correcteur corrige le texte au fur et à mesure que l'auteur écrit.
  2. En comparaison des approches traditionnelles, les correcteurs neuronaux sont moins rapides et consomment plus de ressources de calcul, toutes choses égales par ailleurs.
  3. Les approches traditionnelles sont plus interprétables, dans la mesure où les corrections s'accompagnent presque toujours d'une explication, ce qui n'est pas le cas des correcteurs neuronaux.
  4. La plupart des correcteurs non neuronaux peuvent être facilement intégrés à des logiciels courants comme Chrome et la Suite Office, ce qui facilite l'emploi de ces correcteurs dans des scénarios très divers.

 


1Blair, C. R. (1960). A program for correcting spelling errors. Information and Control3(1), 60-67.

--- texte rédigé par Xiaoou Wang, ingénieur-chercheur en Traitement Automatique des Langues

Points d'attention

Indispensables à la plupart des gens utilisant l'ordinateur pour rédiger des textes de tout genre, les correcteurs orthographique et grammatical d'aujourd'hui présentent encore des limites et restent des outils nécessitant l'intervention humaine. Bien que le recours aux réseaux de neurones ait abouti à une meilleure performance de correction, de nombreux autres facteurs (vitesse, interprétabilité, intégration à d'autres logiciels bureaucratiques) sont à considérer afin de choisir la solution adaptée à son besoin.

Par Xiaoou Wang
Ingénieur-Chercheur en Traitement automatique des Langues (https://xiaoouwang.github.io/)

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Comprendre pour mieux choisir : le cas des correcteurs orthographiques
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Qu'est-ce que la normalisation de textes ?
Quand est-il nécessaire de normaliser des textes ? La nor­ma­li­sa­tion de textes consiste à pré­pa­rer les textes pour effec­tuer un trai­te­ment auto­ma­tique du conte­nu de plus...
Comment un ordinateur peut-il aider à traduire ?
De quand date la traduction automatique ? Les pre­mières solu­tions de tra­duc­tion auto­ma­tique et de tra­duc­tion assis­tée par ordi­na­teur sont appa­rues dès le milieu du XXème...
Comment fonctionne la génération de texte ?
Que signifie le sigle NLG ? NLG est l’a­cro­nyme anglais de « Natu­ral Lan­guage Gene­ra­tion », en d’autres termes géné­ra­tion (de textes) en lan­gage natu­rel. Il s’a­git de faire...

Ces études de cas peuvent aussi vous intéresser

Aide à la saisie de comptes rendus d'intervention de maintenance

Responsable du service après-vente (SAV) dans une entreprise de fabrication et d’installation de volets roulants, j'envoie quotidiennement des techniciens de maintenance intervenir chez nos clients. Après chaque intervention, ils doivent rédiger un compte rendu (CR) dont une grande partie est pré-remplie à l’aide de notre logiciel de gestion de maintenance assistée par ordinateur (GMAO). Il reste cependant une zone de texte libre à renseigner, quel que soit le type d’intervention (corrective, préventive ou curative). Le clavier des tablettes et téléphones qu’utilisent nos techniciens ne permet pas de le faire rapidement. La reconnaissance vocale peut-elle faciliter la tâche de nos techniciens lors de rédaction de leurs CR, tout en s'intégrant aisément à notre application de GMAO ?

Classer la polarité des avis clients de manière fine

Je suis responsable du service après-vente d'un site de vente en ligne et nous avons actuellement un système de prédiction automatique permettant de classer les avis de clients comme positifs, négatifs et neutres. Cependant, nous aimerions un système de détection qui, au lieu de donner une étiquette globale à un texte entier, fournisse des informations à un niveau plus fin. Existe-t-il des solutions de ce genre ?

Qualifier automatiquement les leads : un gain de temps et de précision

Je suis responsable commercial du service de ventes en ligne pour une entreprise de vente de produits sportifs, et dans le cadre du processus de gestion de nos leads, je souhaite disposer d'une solution pour aider les commerciaux de mon équipe à qualifier automatiquement les leads et à les classer en fonction de leur profil ou de leurs intentions d'achat.