Comprendre pour mieux choisir : le cas des correcteurs orthographiques

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Comprendre le fonctionnement et les limites des correcteurs orthographique et grammatical

Je travaille dans le milieu de l'édition. La nature de mon travail fait que je suis amené à rédiger régulièrement des rapports et parfois, à corriger des écrits produits par d'autres personnes. De nos jours, il est courant de recourir à des outils de correction automatique car ces derniers, en proposant une correction en temps réel, réduisent considérablement le risque de commettre des erreurs de diverses natures (orthographe, grammaire, style, etc.). Par ailleurs, ces outils facilitent aussi le processus de relecture dans la mesure où ils réduisent le temps nécessaire à la correction des erreurs orthographiques et grammaticales, ce qui, par conséquent, permet aux relecteurs de mieux se concentrer sur le fonds que sur la forme. J'aimerais connaître mieux le fonctionnement ainsi que les limites de ce type d'outils afin de m'en servir à bon escient.

La solution

Comprendre les correcteurs orthographique et grammatical

Correction automatique de textes, une solution sollicitée par de nombreux métiers

Éditeurs, journalistes ou toutes personnes soucieuses de la qualité de ses écrits, nombreux sont les profils à qui peut profiter l'utilisation d'un outil de correction automatique. La demande importante de ce type de services justifie le nombre élevé de produits existants déjà : en anglais, on trouve notamment Grammarly et pour le français, Antidote, Cordial, et tant d'autres.

En effet, les correcteurs automatiques sont d'une aide précieuse pour la rédaction de tout type de textes. Faisant souvent partie intégrante des logiciels plus avancés comme des assistants d'écriture, ce type d'outils ont pour principales fonctions d'améliorer un texte sur divers aspects en détectant, soulignant, et enfin, proposant des corrections à des écarts à la norme d'une langue donnée. Ces derniers peuvent être tout simplement de nature formelle comme des erreurs orthographiques, ou bien de nature grammaticale ou stylistique.

Cependant, à quel point ces outils sont-ils pertinents ? Suffirait-il de cliquer sur la correction par défaut proposée par ce type d'outils pour produire un texte « sans faille » ? Comment les solutions ont évolué au fil du temps et surtout, à l'ère de l'intelligence artificielle ? Quels sont les critères permettant de différencier les produits ? Les réponses à ces questions nécessitent une connaissance pratique du fonctionnement de la correction automatique qui pourrait ensuite guider ses choix d'opter pour un produit plutôt qu'un autre.

Évolution des correcteurs automatiques

Une histoire de clefs

Le premier outil de correction automatique remonte aux années 60. À l'époque, la correction se faisait surtout au niveau orthographique et permettait entre autres de corriger des textes convertis à partir des documents numérisés (on parle de reconnaissance optique de caractères, OCR en anglais). Le principe de fonctionnement est fort simple : il s'agit de transformer chaque mot en une clef selon un algorithme qui essaie de supprimer les caractères contenant le moins d'information, la quantité d'information étant considérée comme inversement proportionnelle à la fréquence. Ainsi le caractère "i" est moins informatif que "z" car cette dernière lettre est de loin moins fréquente à observer dans un texte.

La position d'un caractère est aussi une information pertinente, car la première et la dernière lettre d'un mot sont souvent plus importantes que celles se trouvant à d'autres positions. Le correcteur réduit ainsi tous les mots d'un texte en clefs et en restituant les clefs en mots, cette méthode permet de transmettre des erreurs comme « abrviation » en « abréviation » car ces deux mots partagent la même clef « brvn ».

Bien que la performance d'une telle méthode soit assez bonne sur un petit corpus de textes sélectionnés par l'auteur de l'article1, elle se trouve rapidement dégradée sur d'autres textes.

Vous avez dit distance ?

En 1965, Vladimir Levenshtein définit la notion de distance d'édition (appelée aussi distance de Levenshtein) qui représente le nombre d'opérations minimal pour passer d'un mot à l'autre.

Les types d'opérations sont au nombre de 3 : insertion, élision et substitution. Ainsi la distance entre "ammoor" et "amour" est 2. Grâce à la distance de Levenshtein, les correcteurs automatiques ont pu hiérarchiser les multiples corrections à une erreur. La correction "amour" serait donc préférable que "armoire" pour la forme erronée qu'est "ammour".

Par la suite, de nombreux paramètres ont été intégrés pour raffiner cette famille de méthodes. On peut citer entre autres :

  • la proximité des touches sur le clavier : "acère" serait donc plus probable que "amère" pour corriger "axere" bien que la distance de Levenshtein soit 2 dans les deux cas, car "c" et "x" sont plus proches sur le clavier ;
  • la proximité phonétique : "Oiseau" serait plus probable que "oison" pour corriger "oiso" malgré une distance moins grande séparant les deux derniers ;
  • la fréquence lexicale.

La grammaire et le style

Bien que les approches basées sur la distance aient amélioré significativement la performance des correcteurs, force est de constater que la correction se limite encore largement aux erreurs orthographiques. En effet, il manque encore une dernière pièce au puzzle : le contexte.

La technique la plus classique consiste à recourir à la probabilité de ce qu'on appelle des N-grammes (séquence de N mots), estimée à partir d'un grand nombre de textes. À titre d'exemple, en s'appuyant sur le fait que la séquence "la culture française" est plus probable que "la culture français" (cliquez sur les deux trigrammes pour visualiser le nombre de textes contenant ces deux suites de mots dans la bibliothèque numérique Gallica), le correcteur automatique est en mesure de détecter l'erreur grammaticale en question, alors que tous les mots contenus dans les deux trigrammes sont de bonne forme.

Deux techniques relevant du Traitement automatique des Langues (TAL) viendront ensuite complémenter cette méthode : l'étiquetage morpho-syntaxique qui attribue à chaque mot d'un texte une partie du discours (POS : nom, verbe, etc.) et l'analyse syntaxique qui permet d'analyser la structure syntaxique d'une phrase. Il est dès lors possible d'utiliser la probabilité des N-grammes POS (une séquence de trois verbes à la suite - notée VVV - est par exemple peu probable) ainsi que de détecter certaines erreurs grammaticales en appliquant des règles (l'analyseur syntaxique signalera une erreur si un nom singulier est associé à un adjectif au pluriel).

Il est à noter que le contexte peut aussi prendre une autre connotation si l'on considère que le type de documents dans lequel apparaît un mot/N-gramme constitue aussi un contexte. Il sera dès lors possible de proposer des suggestions de correction sur le plan stylistique en associant les mots/expressions à un type de textes particulier (littéraire, administratif, etc.).

L'approche traditionnelle combinant la distance et d'autres paramètres mentionnés ci-dessus est encore au cœur de la plupart des correcteurs d'aujourd'hui et il est fort probable que cela soit le cas de votre correcteur favori. De ce fait, il n'est pas possible de parvenir à un texte « parfait » en choisissant systématiquement la correction par défaut (la première correction) proposée par le correcteur automatique. En effet, bien que l'intégration d'un grand nombre de paramètres permette de choisir la correction la plus probable, cette dernière n'est en aucun cas à l'abri d'erreurs. L'intervention humaine reste nécessaire.

Et l'intelligence artificielle dans tout cela ?

Vous aurez sûrement remarqué, lecteur averti, que les techniques mentionnées jusqu'ici n'ont rien de « intelligent » par rapport aux mots tendance du type Machine Learning/Deep Learning.

Il convient d'abord de noter que le Machine Learning est une composante tout à fait présente dans les correcteurs orthographique et grammatical d'aujourd'hui, tant il est difficile pour l'humain de déterminer le « poids » adéquat à attribuer à chacun des paramètres qui sont par ailleurs toujours plus nombreux à considérer.

Ce constat est cependant pertinent dans le sens où il existe une autre catégorie de correcteurs qui, cette fois-ci, sont basés sur des réseaux de neurones (donc Deep Learning). Ce type de correcteurs, plus performants que les approches dites non neuronales, s'appuient sur les dernières avancées technologiques dans le domaine de la traduction automatique. En effet, il est tout à fait possible de considérer un texte à corriger comme un texte à traduire et le texte sans erreurs comme un texte traduit. Tout comme pour la traduction automatique, le développement du type de correcteurs « neuronaux » nécessite la construction d'un corpus composé de textes à corriger et de textes corrigés.

Que choisir ?

Si les correcteurs ortho-grammaticaux basés sur le Deep Learning sont plus performants, pourquoi la plupart des correcteurs actuels ne sont pas basés sur ce type de technologies ? Les raisons sont multiples et liées à des facteurs aussi bien humains que techniques :

  1. Les correcteurs neuronaux sont moins adéquats pour corriger les textes en temps réel. Compte tenu de la façon dont sont « entraînés » ce type de correcteurs, le processus de correction s'opère souvent au niveau phrastique. En revanche, les approches traditionnelles peuvent corriger au niveau des mots. Dans le cas de la rédaction de textes, il peut être préférable que le correcteur corrige le texte au fur et à mesure que l'auteur écrit.
  2. En comparaison des approches traditionnelles, les correcteurs neuronaux sont moins rapides et consomment plus de ressources de calcul, toutes choses égales par ailleurs.
  3. Les approches traditionnelles sont plus interprétables, dans la mesure où les corrections s'accompagnent presque toujours d'une explication, ce qui n'est pas le cas des correcteurs neuronaux.
  4. La plupart des correcteurs non neuronaux peuvent être facilement intégrés à des logiciels courants comme Chrome et la Suite Office, ce qui facilite l'emploi de ces correcteurs dans des scénarios très divers.

 


1Blair, C. R. (1960). A program for correcting spelling errors. Information and Control3(1), 60-67.

--- texte rédigé par Xiaoou Wang, ingénieur-chercheur en Traitement Automatique des Langues

Points d'attention

Indispensables à la plupart des gens utilisant l'ordinateur pour rédiger des textes de tout genre, les correcteurs orthographique et grammatical d'aujourd'hui présentent encore des limites et restent des outils nécessitant l'intervention humaine. Bien que le recours aux réseaux de neurones ait abouti à une meilleure performance de correction, de nombreux autres facteurs (vitesse, interprétabilité, intégration à d'autres logiciels bureaucratiques) sont à considérer afin de choisir la solution adaptée à son besoin.

Par xiaoou
Ingénieur-Chercheur en Traitement Automatique du Langage (https://xiaoouwang.github.io/)

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Comprendre pour mieux choisir : le cas des correcteurs orthographiques
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
La plateforme Lettria rassemble les équipes tech et métier sur une même interface collaborative et no-code, pour les accompagner étape par étape dans la réalisation de leurs projets de traitement de données textuelles.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Mondeca équipe et assiste les entreprises privées et les organisations publiques pour qu’elles puissent tirer le meilleur profit de la technologie sémantique. Deux outils fondent l'offre Mondeca : CAM (Content Autotagging Manager) chaine UIMA de pilotage de workflows (Gate, Spacy, ML ...) et ITM (Intelligent Taxonomy Manager) gestionnaire de graphes de référentiels (taxonomies/ontologies). Un portail de diffusion et publication de terminologies (KB) est également proposé. La solution Mondeca est performante (pertinence, volumes, rapidité), stable et s'adapte aux différents cas métiers.
 
Reecall est une solution de productivité et de gestion des appels entrants augmentée par l’IA. Gagnez en satisfaction client et en productivité : disponibles 24/7 nos agents virtuels reconnaissent vos clients, dialoguent en langage naturel, traitent immédiatement les demandes simples et automatisent les demandes complexes pour assister vos conseillers. Concentrez vos équipes sur les appels à forte valeur ajoutée et gagnez un temps précieux sur la résolution. Connectez vos outils avec notre RPA et automatisez jusqu’à 60% des demandes. Reecall, l’excellence d’un service client sans limite.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Qu'est-ce que la normalisation de textes ?
Quand est-il nécessaire de normaliser des textes ? La nor­ma­li­sa­tion de textes consiste à pré­pa­rer les textes pour effec­tuer un trai­te­ment auto­ma­tique du conte­nu de plus...
Comment un ordinateur peut-il aider à traduire ?
De quand date la traduction automatique ? Les pre­mières solu­tions de tra­duc­tion auto­ma­tique et de tra­duc­tion assis­tée par ordi­na­teur sont appa­rues dès le milieu du XXème...
Comment fonctionne la génération de texte ?
Que signifie le sigle NLG ? NLG est l’a­cro­nyme anglais de « Natu­ral Lan­guage Gene­ra­tion », en d’autres termes géné­ra­tion (de textes) en lan­gage natu­rel. Il s’a­git de faire...

Ces études de cas peuvent aussi vous intéresser

Comment alléger la charge que représente la rédaction de comptes-rendus médicaux en milieu hospitalier ?

Je suis chef de service hospitalier et souhaite alléger la charge que représente la rédaction récurrente de comptes-rendus médicaux. Les médecins du service sont amenés à rédiger pour chaque visite de patient des comptes-rendus médicaux nécessaires à leur suivi. Afin d'alléger la charge que représente la rédaction de ces comptes-rendus, je souhaite disposer d'un outil qui permettre d'optimiser la rédaction récurrente de parties redondantes.

Comment améliorer la recherche sur mon site de vente en ligne ?

CTO d'une société de fournitures électriques pour professionnels, mon service gère la plate-forme B2B et le SRI (Système de Recherche d'Information) derrière le formulaire de recherche produits. Or aujourd'hui, lorsque un client cherche des dominos par exemple, il ne trouve pas les barrettes de connexion. L'indexation des fiches produits et le traitement des requêtes s'appuient pourtant sur un référentiel. Il a été élaboré au fil de l'eau à partir du plan de classement du site et nous ne parvenons pas à le maintenir ou à l'étendre. Comment réorganiser cette ressource rapidement pour améliorer notre fonctionnalité de recherche et l'expérience utilisateurs ?

La relation client multicanale : comment équilibrer le service entre coût et opportunités ?

Je suis responsable du service client de mon entreprise. Mon équipe et moi devons traiter quotidiennement un volume important de demandes clients dans un environnement multicanal, avec une réactivité optimale.