Extraction d'information, de quoi s'agit-il ?

L’extraction d’information, à quoi ça sert ?

L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de lieux, rela­tions entre entre­prises, dates, montants…

De nom­breuses appli­ca­tions du trai­te­ment auto­ma­tique des langues néces­sitent de pou­voir extraire des infor­ma­tions conte­nues dans les docu­ments en langue natu­relle. On peut, par exemple: 

  • vou­loir recon­naître l’en­semble des noms de per­sonnes conte­nus dans un texte pour pou­voir les anonymiser
  • iden­ti­fier les com­pé­tences d’un can­di­dat dans un cur­ri­cu­lum vitae
  • retrou­ver les rela­tions entre dif­fé­rentes entre­prises pour une acti­vi­té de veille.
  • nour­rir une base de don­nées à par­tir d’élé­ments extraits de docu­ments non structurés.

Qu’appelle-t-on entités nommées ?

Le pre­mier niveau d’ex­trac­tion d’in­for­ma­tion consiste à repé­rer les enti­tés nom­mées, c’est à dire des seg­ments de textes d’un type par­ti­cu­lier, par exemple des noms propres, des nombres ou des dates. 

Reconnaître des entités nommées, comment ça marche ?

Dif­fé­rentes stra­té­gies peuvent être uti­li­sées pour recon­naître des enti­tés nom­mées comme la recon­nais­sance de patrons d’ex­trac­tion par­ti­cu­liers. La recon­nais­sance des noms de per­sonnes pour­ra par ain­si uti­li­ser, notam­ment, un dic­tion­naire des pré­noms ou cer­taines infor­ma­tions de contexte telles les titres (Mon­sieur, Mme) ou les appo­si­tions (X, Pré­sident de la socié­té Y).

La recon­nais­sance d’en­ti­tés nom­mées peut éga­le­ment faire appel à des patrons séman­tiques, il s’a­git alors de recon­naître des enti­tés nom­mées de types par­ti­cu­lier (noms de per­sonnes, entre­prises, verbes) et d’in­duire des rela­tions entre ces entités. 

Par exemple, le patron PERSONNE est le direc­teur de SOCIETE per­met­tra d’ex­traire le lien entre les enti­tés à par­tir de la phrase « John Cham­bers est le patron de Cis­co ».

Les algorithmes d’apprentissage automatique peuvent-ils découvrir de nouveaux patrons d’extraction ?

Il est pos­sible d’en­traî­ner un algo­rithme d’in­tel­li­gence arti­fi­cielle pour la recon­nais­sance de rela­tions dans des corpus.

On construit d’a­bord un cor­pus anno­té, c’est à dire que l’on a indi­qué les rela­tions entre seg­ments d’un cor­pus. Par exemple, des noms d’en­tre­prises et des rela­tions (acqui­si­tion, fusion, …). 

Par Alain Couillault
PhD Chargé de Mission Innovation APIL

Études de cas associés

Qualifier automatiquement les leads : un gain de temps et de précision

Je suis responsable commercial du service de ventes en ligne pour une entreprise de vente de produits sportifs, et dans le cadre du processus de gestion de nos leads, je souhaite disposer d'une solution pour aider les commerciaux de mon équipe à qualifier automatiquement les leads et à les classer en fonction de leur profil ou de leurs intentions d'achat.

Comment améliorer la recherche sur mon site de vente en ligne ?

CTO d'une société de fournitures électriques pour professionnels, mon service gère la plate-forme B2B et le SRI (Système de Recherche d'Information) derrière le formulaire de recherche produits. Or aujourd'hui, lorsque un client cherche des dominos par exemple, il ne trouve pas les barrettes de connexion. L'indexation des fiches produits et le traitement des requêtes s'appuient pourtant sur un référentiel. Il a été élaboré au fil de l'eau à partir du plan de classement du site et nous ne parvenons pas à le maintenir ou à l'étendre. Comment réorganiser cette ressource rapidement pour améliorer notre fonctionnalité de recherche et l'expérience utilisateurs ?

Comment évaluer automatiquement si un CV est pertinent pour un poste ?

Je suis responsable RH et je m'occupe actuellement du recrutement dans le cadre de l'extension de nos équipes. Nous avons identifié, en accord avec la GPEC et les besoins des managers, un certain nombre de postes pour lesquels nous souhaitons embaucher les meilleurs candidats. Après avoir formalisé les missions et compétences requises dans des fiches de postes, rédigé les offres d'emploi et diffusé ces dernières en ligne, mon service a reçu des centaines de candidatures pour chaque poste. Ces candidatures sont stockées dans la base de données de notre SIRH, et pour chaque offre publiée, j'ai accès en un clic à l'ensemble des CVs que j'ai reçus. Pour éviter à mon équipe de lire toutes les candidatures, je souhaite dans un premier temps identifier dans la masse de CVs ceux qui sont pertinents pour chaque poste afin de ne transmettre qu'une poignée de candidatures qualifiées aux managers qui sont demandeurs du recrutement. Comment faire pour évaluer automatiquement si un CV est pertinent pour un poste ?

Comment exploiter les données cliniques dans une veille biomédicale ciblée ?

Je suis responsable produit dans l'industrie pharmaceutique et j'aimerais qu'un outil m'aide à exploiter le contenu textuel des essais cliniques, de comptes-rendus, expériences patients, signalements d'effets indésirables dans l'optique d'optimiser la veille de molécules médicamenteuses. Un tel outil peut m'être d'une aide particulièrement précieuse. D'une part, les données disponibles dans le domaine pharmaceutique, de par leur volume et leur diversité, sont difficiles à archiver et analyser à la main, d'autre part, la qualité des articles parus sur les revues médicales est conditionnée par les choix éditoriaux ainsi que d'éventuels conflits d'intérêt. Il me sera donc utile de disposer d'un outil pour que je puisse effectuer, de manière efficace et surtout à partir des sources brutes, une veille ciblée sur un sujet précis.

Comment rendre les données textuelles compatibles avec la législation sur les données personnelles ?

Je mets en œuvre des systèmes qui font appel à des données massives ("big data"). Afin d'être compatible avec le RGPD, j'ai mis en œuvre des techniques d'anonymisation pour les données nominatives dans les champs structurées, mais comment faire pour les données non-structurées (les textes) qui y sont associées ?

Création automatique des dossiers de crédit d'entreprise

En tant que responsable de la direction finances et risques d'une banque, je souhaite mettre en place un processus de création automatique des dossiers de crédit aux entreprises à partir des éléments clés : projets de financement, santé financière de l'entreprise, garanties apportées, etc. Cette solution devra être déployée sur l'ensemble du groupe, et notamment être accessible à tous les "risk managers" de l'établissement.

Détecter des phénomènes et signaux peu perceptibles pour les opérateurs humains

Officier des forces de sécurité, j'anime une cellule de surveillance des réseaux criminels de toutes sortes, notamment à partir des interceptions de relations entre les membres de ces réseaux : texte, mais surtout enregistrements audio, dans les langues les plus diverses, parfois rares. Je sais que l'intelligence artificielle permet de mettre en évidence des faits d'intérêt majeur par l'analyse dans le temps de ces données textuelles et aimerais en savoir davantage.

Quantifier des opinions dans des réponses libres : un défi

Je suis décideur dans un institut d'études marketing et de sondage d'opinion. Je souhaite lancer des enquêtes incluant des questions ouvertes pour leur richesse. Mais comment dépouiller toutes ces contributions en texte libre ?

Les avis clients en texte libre : une mine de pépites, mais comment les extraire et les mesurer ?

Je dispose de contenus précieux reflétant l’expérience, la satisfaction, les attentes de mes clients. Mais autant les contenus en texte libre sont riches, autant ils sont complexes à exploiter. L'analyse linguistique peut-elle m'apporter une aide ?

Repérer et quantifier les effets des traitements ainsi que leur contexte d'apparition

Je suis responsable de la pharmacovigilance au sein d'une structure publique de veille sanitaire. Je souhaite pouvoir exploiter plus largement les sources d'information sur les effets des traitements et garantir une certaine objectivité des analyses à partir des textes libres : l'analyse linguistique automatisée répond-elle à ces objectifs et comment ?

Je souhaite contacter le SAV d'un site de commerce en ligne

Quand je contacte le service client d'un fournisseur, je veux que ma demande soit correctement prise en compte afin d'obtenir rapidement le bon interlocuteur.

Comment identifier la plagiat dans les copies des étudiants de manière simple, rapide et la plus exhaustive possible ?

Enseignant dans l'enseignement supérieur, je dois vérifier que les copies de mes étudiants ne contiennent pas d'extraits traduits d'articles scientifiques disponibles en ligne.