Le traitement automatique des langues (NLP) : un domaine pluridisciplinaire qui a de l’avenir

Le trai­te­ment auto­ma­tique des langues (TAL), ou Natu­ral Lan­guage Pro­ces­sing (NLP) en anglais, regroupe un ensemble de méthodes emprun­tées aux domaines de la lin­guis­tique et de l’informatique, des­ti­nées à faci­li­ter notre quo­ti­dien en construi­sant des outils adap­tés à nos besoins.

Le traitement automatique des langues (NLP) : un domaine à la croisée de plusieurs disciplines

Le trai­te­ment auto­ma­tique des langues (TAL) est un domaine com­bi­nant des com­pé­tences en lin­guis­tique et en infor­ma­tique. De nom­breuses solu­tions de NLP sont aujourd’hui pré­sentes dans notre quo­ti­dien, à com­men­cer par nos smart­phones : assis­tant vir­tuel, dic­tée de mes­sage par com­mande vocale, tra­duc­teur auto­ma­tique ou encore cor­rec­teur ortho­gra­phique. L’intelligence arti­fi­cielle, et plus spé­ci­fi­que­ment son volet tex­tuel, sus­cite donc un grand inté­rêt géné­ral car elle nous concerne toutes et tous. De nou­velles avan­cées tech­no­lo­giques font d’ailleurs régu­liè­re­ment grand bruit dans la com­mu­nau­té scien­ti­fique, comme auprès des indus­triels, et nous conduisent vers des outils tou­jours plus per­fec­tion­nés et puissants.

Le traitement automatique des langues (TAL), ou Natural Language Processing (NLP) en anglais, regroupe un ensemble de méthodes empruntées aux domaines de la linguistique et de l’informatique, destinées à faciliter notre quotidien en construisant des outils adaptés à nos besoins
Le trai­te­ment auto­ma­tique du lan­gage (TAL), ou Trai­te­ment Auto­ma­tique du Lan­gage Natu­rel (TALN), uti­lise des méthodes issues de la lin­guis­tique et de l’in­for­ma­tique pour créer des outils adap­tés à nos besoins.

Le traitement automatique des langues : contexte et enjeux

Contexte d’apparition et évolution du NLP

Bien que l’on asso­cie aujourd’hui spon­ta­né­ment le trai­te­ment auto­ma­tique des langues à l’intelligence arti­fi­cielle et aux tech­no­lo­gies modernes, le NLP puise en réa­li­té son ori­gine dans les années 1950 et un contexte poli­tique par­ti­cu­liè­re­ment ten­du. En effet, à cette époque, la guerre froide entre les Etats-Unis et l’URSS est pro­pice au déve­lop­pe­ment de la tra­duc­tion auto­ma­tique, notam­ment du russe vers l’anglais, pour com­prendre les stra­té­gies ennemies.

C’est aus­si l’apparition du trai­te­ment auto­ma­tique des conver­sa­tions, notam­ment grâce aux tra­vaux d’Alan Turing qui explore la ques­tion sui­vante : “Une machine peut-elle pen­ser ?”, et au test qui por­te­ra par la suite son nom. Le test de Turing est une méthode qui per­met d’évaluer la capa­ci­té d’un pro­gramme conver­sa­tion­nel à se faire pas­ser pour un humain. Les tout pre­miers chat­bots sont donc plus vieux qu’on ne le pense !

Au fil des années, plu­sieurs cher­cheurs et entre­prises se sont tour à tour pen­chés sur ce défi conver­sa­tion­nel et, aujourd’hui, on constate que les chat­bots sont désor­mais très pré­sents dans notre quo­ti­dien, aus­si bien dans la rela­tion client, qu’au sup­port ou encore en tant qu’assistant per­son­nel dans nos smart­phones. Aucun d’eux n’a jamais mon­tré une poten­tielle “conscience” comme l’espérait Turing, mais plu­sieurs ont tout de même pas­sé son test avec suc­cès, bien qu’il soit désor­mais controversé.

Le modèle embryon­naire de tra­duc­tion auto­ma­tique des années 1950 a quant à lui pro­gres­si­ve­ment évo­lué vers de la tra­duc­tion assis­tée par ordi­na­teur (TAO), de la tra­duc­tion auto­ma­tique neu­ro­nale ou encore des tech­no­lo­gies de tra­duc­tion vocale ins­tan­ta­née, par exemple.

Néan­moins, la tra­duc­tion auto­ma­tique et les agents conver­sa­tion­nels ne sont pas les deux seules appli­ca­tions du NLP, bien au contraire. Les don­nées tex­tuelles et vocales sont pré­sentes par­tout et leur trai­te­ment per­met de répondre à divers besoins, par­mi lesquels :

  • La cor­rec­tion orthographique,
  • L’analyse de sentiments,
  • Les moteurs de recherche,
  • La détec­tion de spams dans les boîtes mail,
  • La géné­ra­tion auto­ma­tique de textes,
  • La syn­thèse vocale…

Le langage naturel, un foisonnement de données non structurées

Avec l’avènement d’internet et le volume gran­dis­sant de don­nées à explo­rer, notam­ment grâce au web, le trai­te­ment auto­ma­tique des langues per­met donc à la fois de col­lec­ter des mil­lions de don­nées rapi­de­ment, de les struc­tu­rer, mais aus­si d’en faire res­sor­tir le sens grâce à une ana­lyse séman­tique fine. En effet, le lan­gage est com­plexe à étu­dier pour une machine. Il est ambi­gu, se com­pose de noms com­po­sés, de termes poly­sé­miques, d’expressions idio­ma­tiques, de méta­phores, de figures de style ou de sous-enten­dus. Plus encore, il est en per­pé­tuelle évo­lu­tion, c’est pour­quoi chaque année les dic­tion­naires doivent accueillir de nou­veaux mots, par­fois issus de nou­veaux contextes (lan­gage SMS, COVID, néo­lo­gismes ou encore angli­cismes liés à l’influence de d’autres cultures…).

Des méthodes de NLP emprun­tées aux domaines de la lin­guis­tique et de l’informatique vont donc per­mettre de struc­tu­rer le lan­gage, en le décou­pant par exemple en mots et expres­sions (toke­ni­sa­tion), en défi­nis­sant la fonc­tion de chaque mot à l’intérieur d’une phrase (éti­que­tage mor­pho-syn­taxique) ou les rela­tions et dépen­dances entre dif­fé­rentes uni­tés séman­tiques (rela­tion sujet-objet, cooc­cur­rence…) Tout cela per­met ain­si d’extraire des infor­ma­tions signi­fi­ca­tives comme des inten­tions, des enti­tés, ou encore des concepts.

Les 3 types de méthodes en NLP

Il existe trois types de méthodes pour trai­ter auto­ma­ti­que­ment le langage : 

  • Les méthodes lin­guis­tiques, aus­si appe­lées méthodes décla­ra­tives ou approche symbolique
  • Les méthodes à base d’apprentissage auto­ma­tique, aus­si appe­lées méthodes sta­tis­tiques ou machine lear­ning
  • Les méthodes à base d’apprentissage pro­fond, aus­si appe­lées approche connexion­niste ou deep lear­ning

Les méthodes lin­guis­tiques reposent sur un ensemble de règles de gram­maire for­melles et de res­sources lan­ga­gières comme des dic­tion­naires et des onto­lo­gies. Elles vont s’appuyer sur la séman­tique, la syn­taxe ou encore la pho­né­tique. Elles sont très per­for­mantes mais très chro­no­phages puisque, comme nous l’avons vu, le lan­gage est com­plexe, il faut donc des années pour arri­ver à décrire toutes ses nuances à l’aide de règles.

Les méthodes de Machine Lear­ning trans­forment quant à elles le lan­gage en objet mathé­ma­tique et per­mettent à la machine de pro­duire des esti­ma­tions et des pré­vi­sions. Elles exploitent des cor­pus de textes anno­tés, c’est-à-dire qu’elles reposent sur des don­nées struc­tu­rées, et s’ap­puient sur des variables spé­ci­fiques : par exemple, pour pré­dire si oui ou non une per­sonne est sus­cep­tible d’acheter une mai­son, le modèle peut s’appuyer sur l’âge et le reve­nu de la per­sonne, tout en pre­nant en compte des mil­liers d’autres exemples de situa­tions similaires.

Par­mi les méthodes sta­tis­tiques, il existe aus­si les méthodes d’apprentissage pro­fond (deep lear­ning en anglais). Le Deep Lear­ning est une sous-caté­go­rie du Machine Lear­ning, qui est lui-même une sous-caté­go­rie de l’intelligence arti­fi­cielle. Les méthodes d’apprentissage pro­fond reposent sur l’entraînement d’un modèle de réseaux de neu­rones, c’est-à-dire une suc­ces­sion de couches dont cha­cune prend en entrée les sor­ties de la pré­cé­dente. Ce type de modèle va pou­voir extraire auto­ma­ti­que­ment des carac­té­ris­tiques (fea­tures en anglais) inté­res­santes. Pour être per­for­mant, il requiert de très grands volumes de don­nées d’entraînement, un temps d’entraînement consé­quent, et néces­site donc une grande puis­sance de cal­cul, ce qui peut être contrai­gnant à mettre en pra­tique. Néan­moins, il est capable d’apprendre de son envi­ron­ne­ment et de ses erreurs.

Pour finir, il existe aus­si la pos­si­bi­li­té d’adopter une méthode hybride, c’est-à-dire inté­grer les méthodes du deep lear­ning tout en pré­ser­vant les contraintes logiques décrites dans les modèles à base de règles. C’est un des défis du NLP aujourd’hui.

Le NLP dans le secteur des industries de la langue

L’APIL et sa plateforme Demotal

En France, l’Association des Pro­fes­sion­nels des Indus­tries de la Langue (APIL) ras­semble et repré­sente les indus­triels évo­luant dans le domaine du NLP. Son objec­tif est de faire connaître les tech­no­lo­gies et solu­tions issues de la recherche aca­dé­mique ou indus­trielle, ain­si que leurs usages, leurs apports et les entre­prises fran­çaises qui gra­vitent autour.

Pour cela, l’APIL orga­nise dif­fé­rents évé­ne­ments réunis­sant de nom­breux acteurs du NLP. Elle main­tient aus­si la pla­te­forme Demo­tal qui pro­pose régu­liè­re­ment de nou­velles études de cas, ce qui per­met de décrire les besoins actuels de cer­taines branches d’activités (san­té, assu­rance, culture, sec­teur public, grande dis­tri­bu­tion…) et d’expliquer les solu­tions de NLP per­ti­nentes à mettre en place pour répondre à cha­cun de ces besoins et faci­li­ter leur quotidien.

Tour d’horizon des acteurs industriels du NLP en France

En France, il y a un atta­che­ment par­ti­cu­lier à la langue et aux huma­ni­tés. C’est une des rai­sons qui a per­mis l’émergence pro­gres­sive de nom­breuses entre­prises, prin­ci­pa­le­ment des star­tups et des PME, spé­cia­li­sées dans le trai­te­ment auto­ma­tique des langues. Cet enthou­siasme pour le domaine favo­rise ain­si la créa­tion et la dif­fu­sion d’une large gamme de solutions.

On peut divi­ser l’ensemble des acteurs du NLP en quatre catégories : 

  • Les édi­teurs de solu­tions (tra­duc­tion auto­ma­tique, chatbots…),
  • Les édi­teurs de solu­tions qui intègrent des modules de NLP mais ne concentre pas leur offre dessus,
  • Les pres­ta­taires de ser­vice (de l’auto-entrepreneur à la grande ESN), qui pro­posent leurs com­pé­tences de conseils ou de déve­lop­pe­ment en NLP,
  • Les éta­blis­se­ments (pri­vés, publics, aca­dé­miques), qui com­portent une acti­vi­té de NLP ou intègrent un dépar­te­ment dédié à ce domaine.

Il existe donc une grande diver­si­té d’acteurs et un enthou­siasme gran­dis­sant pour le domaine.

Objectifs

La France cherche de plus en plus à se posi­tion­ner aux côtés de l’Europe dans les domaines de l’intelligence arti­fi­cielle et du NLP, face à la mon­tée en puis­sance des Etats-Unis et des pays asia­tiques, notam­ment. Pour cela, l’objectif est de ren­for­cer la col­la­bo­ra­tion entre les dif­fé­rents acteurs du sec­teur et par­ti­ci­per à la struc­tu­ra­tion de ce der­nier à l’échelle natio­nale, par exemple via la créa­tion d’un centre de réfé­rence de NLP en France. Les acteurs du sec­teur aspirent aus­si à dis­po­ser de pla­te­formes et de res­sources lan­ga­gières par­ta­gées afin de faci­li­ter leur développement.

Le TAL dans le secteur académique

NLP ou TAL ? À chaque communauté, son usage

En France, on peut aus­si bien uti­li­ser l’acronyme TAL (pour Trai­te­ment Auto­ma­tique des Langues) que NLP (Natu­ral Lan­guage Pro­ces­sing) pour faire réfé­rence à ce domaine. Cepen­dant, le TAL est le terme géné­ra­le­ment favo­ri­sé dans le sec­teur aca­dé­mique, notam­ment dans les for­ma­tions de Licence et Mas­ter, mais aus­si dans les labo­ra­toires de recherche et au sein des ins­ti­tu­tions, tan­dis que le NLP sera plu­tôt pri­vi­lé­gié dans le sec­teur indus­triel (entre­prises, offres d’emploi, inti­tu­lés de poste…).

L’ATALA, l’association tournée vers le monde de la recherche

L’asso­cia­tion pour le trai­te­ment auto­ma­tique des langues (ATALA) est l’organisme de réfé­rence du côté aca­dé­mique. Cette asso­cia­tion fon­dée en 1959 joue un rôle essen­tiel dans l’animation et la dif­fu­sion des recherches en NLP. A l’origine, elle était prin­ci­pa­le­ment tour­née vers la tra­duc­tion auto­ma­tique mais elle est désor­mais aux com­mandes de dif­fé­rents évé­ne­ments et modes de dif­fu­sion des avan­cées du NLP en France :

  • Édi­tion de la revue TAL à rai­son de 3 numé­ros par an,
  • Orga­ni­sa­tion de la confé­rence annuelle TALN et de sa ses­sion étu­diante RECITAL,
  • Main­te­nance de plu­sieurs annuaires du TAL (entre­prises, équipes, formations),
  • Ges­tion de la liste LN qui dif­fuse régu­liè­re­ment des offres d’emploi, de stages ou encore les confé­rences à venir

L’ATALA est donc un pilier du NLP en France, elle contri­bue à la fois à son essor et à la dif­fu­sion des infor­ma­tions essen­tielles, et elle fédère de nom­breux acteurs fran­co­phones du domaine.

Formations et équipes de recherches

En France, il existe une ving­taine de for­ma­tions dédiées au trai­te­ment auto­ma­tique des langues, aux niveaux Licence et Mas­ter. Celles-ci sont réper­to­riées dans un cata­logue dis­po­nible sur le site de l’ATALA.

Il est pos­sible de se for­mer au NLP en étant issu de for­ma­tions lit­té­raires comme Lettres Modernes, Lettres clas­siques, Sciences du lan­gage, mais aus­si de for­ma­tions de langue comme LEA ou LLCER, notam­ment. Les pro­fils lit­té­raires ont l’avantage d’avoir de bonnes connais­sances en lin­guis­tique. Cepen­dant, il fau­dra se fami­lia­ri­ser avec l’informatique. Bien enten­du, les for­ma­tions en infor­ma­tique pro­posent elles aus­si des par­cours qui mènent au trai­te­ment auto­ma­tique des langues.

En ce qui concerne le domaine de la recherche, il existe plus d’une ving­taine d’équipes de recherche spé­cia­li­sées dans dif­fé­rents aspects du NLP et répar­ties dans plu­sieurs grandes villes de France.

Conclusion

Le trai­te­ment auto­ma­tique des langues (NLP) est un domaine plu­ri­dis­ci­pli­naire en pleine effer­ves­cence, à l’échelle natio­nale comme inter­na­tio­nale. En pui­sant à la fois dans la lin­guis­tique, l’informatique et les avan­cées consi­dé­rables de ces der­nières années en matière d’intelligence arti­fi­cielle, le NLP per­met ain­si la créa­tion de nom­breuses solu­tions de plus en plus per­for­mantes et puis­santes, ce qui fait de lui un domaine d’avenir, aus­si bien dans le monde de la recherche que dans le sec­teur industriel.