Le traitement automatique des langues (NLP) : un domaine pluridisciplinaire qui a de l’avenir
Sommaire
Le traitement automatique des langues (TAL), ou Natural Language Processing (NLP) en anglais, regroupe un ensemble de méthodes empruntées aux domaines de la linguistique et de l’informatique, destinées à faciliter notre quotidien en construisant des outils adaptés à nos besoins.
Le traitement automatique des langues (NLP) : un domaine à la croisée de plusieurs disciplines
Le traitement automatique des langues (TAL) est un domaine combinant des compétences en linguistique et en informatique. De nombreuses solutions de NLP sont aujourd’hui présentes dans notre quotidien, à commencer par nos smartphones : assistant virtuel, dictée de message par commande vocale, traducteur automatique ou encore correcteur orthographique. L’intelligence artificielle, et plus spécifiquement son volet textuel, suscite donc un grand intérêt général car elle nous concerne toutes et tous. De nouvelles avancées technologiques font d’ailleurs régulièrement grand bruit dans la communauté scientifique, comme auprès des industriels, et nous conduisent vers des outils toujours plus perfectionnés et puissants.
Le traitement automatique des langues : contexte et enjeux
Contexte d’apparition et évolution du NLP
Bien que l’on associe aujourd’hui spontanément le traitement automatique des langues à l’intelligence artificielle et aux technologies modernes, le NLP puise en réalité son origine dans les années 1950 et un contexte politique particulièrement tendu. En effet, à cette époque, la guerre froide entre les Etats-Unis et l’URSS est propice au développement de la traduction automatique, notamment du russe vers l’anglais, pour comprendre les stratégies ennemies.
C’est aussi l’apparition du traitement automatique des conversations, notamment grâce aux travaux d’Alan Turing qui explore la question suivante : “Une machine peut-elle penser ?”, et au test qui portera par la suite son nom. Le test de Turing est une méthode qui permet d’évaluer la capacité d’un programme conversationnel à se faire passer pour un humain. Les tout premiers chatbots sont donc plus vieux qu’on ne le pense !
Au fil des années, plusieurs chercheurs et entreprises se sont tour à tour penchés sur ce défi conversationnel et, aujourd’hui, on constate que les chatbots sont désormais très présents dans notre quotidien, aussi bien dans la relation client, qu’au support ou encore en tant qu’assistant personnel dans nos smartphones. Aucun d’eux n’a jamais montré une potentielle “conscience” comme l’espérait Turing, mais plusieurs ont tout de même passé son test avec succès, bien qu’il soit désormais controversé.
Le modèle embryonnaire de traduction automatique des années 1950 a quant à lui progressivement évolué vers de la traduction assistée par ordinateur (TAO), de la traduction automatique neuronale ou encore des technologies de traduction vocale instantanée, par exemple.
Néanmoins, la traduction automatique et les agents conversationnels ne sont pas les deux seules applications du NLP, bien au contraire. Les données textuelles et vocales sont présentes partout et leur traitement permet de répondre à divers besoins, parmi lesquels :
- La correction orthographique,
- L’analyse de sentiments,
- Les moteurs de recherche,
- La détection de spams dans les boîtes mail,
- La génération automatique de textes,
- La synthèse vocale…
Le langage naturel, un foisonnement de données non structurées
Avec l’avènement d’internet et le volume grandissant de données à explorer, notamment grâce au web, le traitement automatique des langues permet donc à la fois de collecter des millions de données rapidement, de les structurer, mais aussi d’en faire ressortir le sens grâce à une analyse sémantique fine. En effet, le langage est complexe à étudier pour une machine. Il est ambigu, se compose de noms composés, de termes polysémiques, d’expressions idiomatiques, de métaphores, de figures de style ou de sous-entendus. Plus encore, il est en perpétuelle évolution, c’est pourquoi chaque année les dictionnaires doivent accueillir de nouveaux mots, parfois issus de nouveaux contextes (langage SMS, COVID, néologismes ou encore anglicismes liés à l’influence de d’autres cultures…).
Des méthodes de NLP empruntées aux domaines de la linguistique et de l’informatique vont donc permettre de structurer le langage, en le découpant par exemple en mots et expressions (tokenisation), en définissant la fonction de chaque mot à l’intérieur d’une phrase (étiquetage morpho-syntaxique) ou les relations et dépendances entre différentes unités sémantiques (relation sujet-objet, cooccurrence…) Tout cela permet ainsi d’extraire des informations significatives comme des intentions, des entités, ou encore des concepts.
Les 3 types de méthodes en NLP
Il existe trois types de méthodes pour traiter automatiquement le langage :
- Les méthodes linguistiques, aussi appelées méthodes déclaratives ou approche symbolique
- Les méthodes à base d’apprentissage automatique, aussi appelées méthodes statistiques ou machine learning
- Les méthodes à base d’apprentissage profond, aussi appelées approche connexionniste ou deep learning
Les méthodes linguistiques reposent sur un ensemble de règles de grammaire formelles et de ressources langagières comme des dictionnaires et des ontologies. Elles vont s’appuyer sur la sémantique, la syntaxe ou encore la phonétique. Elles sont très performantes mais très chronophages puisque, comme nous l’avons vu, le langage est complexe, il faut donc des années pour arriver à décrire toutes ses nuances à l’aide de règles.
Les méthodes de Machine Learning transforment quant à elles le langage en objet mathématique et permettent à la machine de produire des estimations et des prévisions. Elles exploitent des corpus de textes annotés, c’est-à-dire qu’elles reposent sur des données structurées, et s’appuient sur des variables spécifiques : par exemple, pour prédire si oui ou non une personne est susceptible d’acheter une maison, le modèle peut s’appuyer sur l’âge et le revenu de la personne, tout en prenant en compte des milliers d’autres exemples de situations similaires.
Parmi les méthodes statistiques, il existe aussi les méthodes d’apprentissage profond (deep learning en anglais). Le Deep Learning est une sous-catégorie du Machine Learning, qui est lui-même une sous-catégorie de l’intelligence artificielle. Les méthodes d’apprentissage profond reposent sur l’entraînement d’un modèle de réseaux de neurones, c’est-à-dire une succession de couches dont chacune prend en entrée les sorties de la précédente. Ce type de modèle va pouvoir extraire automatiquement des caractéristiques (features en anglais) intéressantes. Pour être performant, il requiert de très grands volumes de données d’entraînement, un temps d’entraînement conséquent, et nécessite donc une grande puissance de calcul, ce qui peut être contraignant à mettre en pratique. Néanmoins, il est capable d’apprendre de son environnement et de ses erreurs.
Pour finir, il existe aussi la possibilité d’adopter une méthode hybride, c’est-à-dire intégrer les méthodes du deep learning tout en préservant les contraintes logiques décrites dans les modèles à base de règles. C’est un des défis du NLP aujourd’hui.
Le NLP dans le secteur des industries de la langue
L’APIL et sa plateforme Demotal
En France, l’Association des Professionnels des Industries de la Langue (APIL) rassemble et représente les industriels évoluant dans le domaine du NLP. Son objectif est de faire connaître les technologies et solutions issues de la recherche académique ou industrielle, ainsi que leurs usages, leurs apports et les entreprises françaises qui gravitent autour.
Pour cela, l’APIL organise différents événements réunissant de nombreux acteurs du NLP. Elle maintient aussi la plateforme Demotal qui propose régulièrement de nouvelles études de cas, ce qui permet de décrire les besoins actuels de certaines branches d’activités (santé, assurance, culture, secteur public, grande distribution…) et d’expliquer les solutions de NLP pertinentes à mettre en place pour répondre à chacun de ces besoins et faciliter leur quotidien.
Tour d’horizon des acteurs industriels du NLP en France
En France, il y a un attachement particulier à la langue et aux humanités. C’est une des raisons qui a permis l’émergence progressive de nombreuses entreprises, principalement des startups et des PME, spécialisées dans le traitement automatique des langues. Cet enthousiasme pour le domaine favorise ainsi la création et la diffusion d’une large gamme de solutions.
On peut diviser l’ensemble des acteurs du NLP en quatre catégories :
- Les éditeurs de solutions (traduction automatique, chatbots…),
- Les éditeurs de solutions qui intègrent des modules de NLP mais ne concentre pas leur offre dessus,
- Les prestataires de service (de l’auto-entrepreneur à la grande ESN), qui proposent leurs compétences de conseils ou de développement en NLP,
- Les établissements (privés, publics, académiques), qui comportent une activité de NLP ou intègrent un département dédié à ce domaine.
Il existe donc une grande diversité d’acteurs et un enthousiasme grandissant pour le domaine.
Objectifs
La France cherche de plus en plus à se positionner aux côtés de l’Europe dans les domaines de l’intelligence artificielle et du NLP, face à la montée en puissance des Etats-Unis et des pays asiatiques, notamment. Pour cela, l’objectif est de renforcer la collaboration entre les différents acteurs du secteur et participer à la structuration de ce dernier à l’échelle nationale, par exemple via la création d’un centre de référence de NLP en France. Les acteurs du secteur aspirent aussi à disposer de plateformes et de ressources langagières partagées afin de faciliter leur développement.
Le TAL dans le secteur académique
NLP ou TAL ? À chaque communauté, son usage
En France, on peut aussi bien utiliser l’acronyme TAL (pour Traitement Automatique des Langues) que NLP (Natural Language Processing) pour faire référence à ce domaine. Cependant, le TAL est le terme généralement favorisé dans le secteur académique, notamment dans les formations de Licence et Master, mais aussi dans les laboratoires de recherche et au sein des institutions, tandis que le NLP sera plutôt privilégié dans le secteur industriel (entreprises, offres d’emploi, intitulés de poste…).
L’ATALA, l’association tournée vers le monde de la recherche
L’association pour le traitement automatique des langues (ATALA) est l’organisme de référence du côté académique. Cette association fondée en 1959 joue un rôle essentiel dans l’animation et la diffusion des recherches en NLP. A l’origine, elle était principalement tournée vers la traduction automatique mais elle est désormais aux commandes de différents événements et modes de diffusion des avancées du NLP en France :
- Édition de la revue TAL à raison de 3 numéros par an,
- Organisation de la conférence annuelle TALN et de sa session étudiante RECITAL,
- Maintenance de plusieurs annuaires du TAL (entreprises, équipes, formations),
- Gestion de la liste LN qui diffuse régulièrement des offres d’emploi, de stages ou encore les conférences à venir
L’ATALA est donc un pilier du NLP en France, elle contribue à la fois à son essor et à la diffusion des informations essentielles, et elle fédère de nombreux acteurs francophones du domaine.
Formations et équipes de recherches
En France, il existe une vingtaine de formations dédiées au traitement automatique des langues, aux niveaux Licence et Master. Celles-ci sont répertoriées dans un catalogue disponible sur le site de l’ATALA.
Il est possible de se former au NLP en étant issu de formations littéraires comme Lettres Modernes, Lettres classiques, Sciences du langage, mais aussi de formations de langue comme LEA ou LLCER, notamment. Les profils littéraires ont l’avantage d’avoir de bonnes connaissances en linguistique. Cependant, il faudra se familiariser avec l’informatique. Bien entendu, les formations en informatique proposent elles aussi des parcours qui mènent au traitement automatique des langues.
En ce qui concerne le domaine de la recherche, il existe plus d’une vingtaine d’équipes de recherche spécialisées dans différents aspects du NLP et réparties dans plusieurs grandes villes de France.
Conclusion
Le traitement automatique des langues (NLP) est un domaine pluridisciplinaire en pleine effervescence, à l’échelle nationale comme internationale. En puisant à la fois dans la linguistique, l’informatique et les avancées considérables de ces dernières années en matière d’intelligence artificielle, le NLP permet ainsi la création de nombreuses solutions de plus en plus performantes et puissantes, ce qui fait de lui un domaine d’avenir, aussi bien dans le monde de la recherche que dans le secteur industriel.