Extraction d'information, de quoi s'agit-il ?
Sommaire
L’extraction d’information, à quoi ça sert ?
L’extraction d’information consiste à identifier, dans des textes en langue naturelle, des informations types : noms de personnes ou de lieux, relations entre entreprises, dates, montants…
De nombreuses applications du traitement automatique des langues nécessitent de pouvoir extraire des informations contenues dans les documents en langue naturelle. On peut, par exemple:
- vouloir reconnaître l’ensemble des noms de personnes contenus dans un texte pour pouvoir les anonymiser
- identifier les compétences d’un candidat dans un curriculum vitae
- retrouver les relations entre différentes entreprises pour une activité de veille.
- nourrir une base de données à partir d’éléments extraits de documents non structurés.
Qu’appelle-t-on entités nommées ?
Le premier niveau d’extraction d’information consiste à repérer les entités nommées, c’est à dire des segments de textes d’un type particulier, par exemple des noms propres, des nombres ou des dates.
Reconnaître des entités nommées, comment ça marche ?
Différentes stratégies peuvent être utilisées pour reconnaître des entités nommées comme la reconnaissance de patrons d’extraction particuliers. La reconnaissance des noms de personnes pourra par ainsi utiliser, notamment, un dictionnaire des prénoms ou certaines informations de contexte telles les titres (Monsieur, Mme) ou les appositions (X, Président de la société Y).
La reconnaissance d’entités nommées peut également faire appel à des patrons sémantiques, il s’agit alors de reconnaître des entités nommées de types particulier (noms de personnes, entreprises, verbes) et d’induire des relations entre ces entités.
Par exemple, le patron PERSONNE est le directeur de SOCIETE permettra d’extraire le lien entre les entités à partir de la phrase « John Chambers est le patron de Cisco ».
Les algorithmes d’apprentissage automatique peuvent-ils découvrir de nouveaux patrons d’extraction ?
Il est possible d’entraîner un algorithme d’intelligence artificielle pour la reconnaissance de relations dans des corpus.
On construit d’abord un corpus annoté, c’est à dire que l’on a indiqué les relations entre segments d’un corpus. Par exemple, des noms d’entreprises et des relations (acquisition, fusion, …).
Études de cas associés
Je suis directeur de la conformité dans le domaine de l’assurance, nous vendons par téléphone des produits variés dans un contexte particulièrement réglementé. J’ai donc besoin d’outils pour m’assurer que les obligations d’information sont comprises et appliquées par les équipes en tenant compte des spécificités de chaque produit, sans pour autant nuire à la performance commerciale. Comment puis-je faire ?
Je suis dirigeant d’une société immobilière dont l’activité principale est la gestion syndicale de nombreux lots de copropriétés. Chaque jour, la boîte mail de ma société doit faire face à l’afflux de centaines d'emails : de la simple prise d’information à la demande d’intervention urgente. Comment puis-je automatiser le traitement d’un grand volume d'emails pour gagner en temps et en efficacité ?
Je suis dirigeant d’une entreprise informatique et mes équipes effectuent une veille technologique régulière afin de me tenir au courant de l’évolution de notre secteur d’activités, de la concurrence et des avancées technologiques potentielles. Cependant, je souhaiterais que mes équipes aillent au-delà de la veille et puissent me prévenir de ce qui va se passer autour de moi, dans mon activité, afin de m’aider à définir ma stratégie d'entreprise à court et moyen terme. Comment puis-je faire ?
Je suis responsable de l’unité de gestion des sinistres dans une compagnie d’assurance. Mon équipe doit traiter une quantité importante de réclamations pour acheminer le plus vite possible les demandes vers l'équipe appropriée afin d'éviter le mécontentement des clients et en vue d’un traitement efficace.
Je suis responsable commercial d'un site de vente en ligne de produits techniques et je souhaite intégrer à mon site un chatbot pour guider mes clients vers leurs achats en les accompagnant dans leur choix. Je ne sais pas par où commencer pour fournir les connaissances nécessaires à notre futur chatbot.
Je suis responsable des ventes d'une entreprise de vente en ligne. Nous avons une section de commentaires où les clients publient leurs expériences d'utilisation ainsi qu'une section de questions où les prospects se renseignent sur des produits. La section de commentaires constituant une source d'informations précieuse contenant souvent des éléments non contenus dans les fichiers descriptifs envoyés par des fournisseurs, je voudrais savoir comment les avis clients peuvent être exploités afin de proposer des réponses automatiques aux questions des prospects.
Je suis responsable commercial du service de ventes en ligne pour une entreprise de vente de produits sportifs, et dans le cadre du processus de gestion de nos leads, je souhaite disposer d'une solution pour aider les commerciaux de mon équipe à qualifier automatiquement les leads et à les classer en fonction de leur profil ou de leurs intentions d'achat.
CTO d'une société de fournitures électriques pour professionnels, mon service gère la plate-forme B2B et le SRI (Système de Recherche d'Information) derrière le formulaire de recherche produits. Or aujourd'hui, lorsque un client cherche des dominos par exemple, il ne trouve pas les barrettes de connexion. L'indexation des fiches produits et le traitement des requêtes s'appuient pourtant sur un référentiel. Il a été élaboré au fil de l'eau à partir du plan de classement du site et nous ne parvenons pas à le maintenir ou à l'étendre. Comment réorganiser cette ressource rapidement pour améliorer notre fonctionnalité de recherche et l'expérience utilisateurs ?
Je suis responsable RH et je m'occupe actuellement du recrutement dans le cadre de l'extension de nos équipes. Nous avons identifié, en accord avec la GPEC et les besoins des managers, un certain nombre de postes pour lesquels nous souhaitons embaucher les meilleurs candidats. Après avoir formalisé les missions et compétences requises dans des fiches de postes, rédigé les offres d'emploi et diffusé ces dernières en ligne, mon service a reçu des centaines de candidatures pour chaque poste. Ces candidatures sont stockées dans la base de données de notre SIRH, et pour chaque offre publiée, j'ai accès en un clic à l'ensemble des CVs que j'ai reçus. Pour éviter à mon équipe de lire toutes les candidatures, je souhaite dans un premier temps identifier dans la masse de CVs ceux qui sont pertinents pour chaque poste afin de ne transmettre qu'une poignée de candidatures qualifiées aux managers qui sont demandeurs du recrutement. Comment faire pour évaluer automatiquement si un CV est pertinent pour un poste ?
Je suis responsable produit dans l'industrie pharmaceutique et j'aimerais qu'un outil m'aide à exploiter le contenu textuel des essais cliniques, de comptes-rendus, expériences patients, signalements d'effets indésirables dans l'optique d'optimiser la veille de molécules médicamenteuses. Un tel outil peut m'être d'une aide particulièrement précieuse. D'une part, les données disponibles dans le domaine pharmaceutique, de par leur volume et leur diversité, sont difficiles à archiver et analyser à la main, d'autre part, la qualité des articles parus sur les revues médicales est conditionnée par les choix éditoriaux ainsi que d'éventuels conflits d'intérêt. Il me sera donc utile de disposer d'un outil pour que je puisse effectuer, de manière efficace et surtout à partir des sources brutes, une veille ciblée sur un sujet précis.
Je mets en œuvre des systèmes qui font appel à des données massives ("big data"). Afin d'être compatible avec le RGPD, j'ai mis en œuvre des techniques d'anonymisation pour les données nominatives dans les champs structurées, mais comment faire pour les données non-structurées (les textes) qui y sont associées ?
En tant que responsable de la direction finances et risques d'une banque, je souhaite mettre en place un processus de création automatique des dossiers de crédit aux entreprises à partir des éléments clés : projets de financement, santé financière de l'entreprise, garanties apportées, etc. Cette solution devra être déployée sur l'ensemble du groupe, et notamment être accessible à tous les "risk managers" de l'établissement.
Officier des forces de sécurité, j'anime une cellule de surveillance des réseaux criminels de toutes sortes, notamment à partir des interceptions de relations entre les membres de ces réseaux : texte, mais surtout enregistrements audio, dans les langues les plus diverses, parfois rares. Je sais que l'intelligence artificielle permet de mettre en évidence des faits d'intérêt majeur par l'analyse dans le temps de ces données textuelles et aimerais en savoir davantage.
Je suis décideur dans un institut d'études marketing et de sondage d'opinion. Je souhaite lancer des enquêtes incluant des questions ouvertes pour leur richesse. Mais comment dépouiller toutes ces contributions en texte libre ?
Je dispose de contenus précieux reflétant l’expérience, la satisfaction, les attentes de mes clients. Mais autant les contenus en texte libre sont riches, autant ils sont complexes à exploiter. L'analyse linguistique peut-elle m'apporter une aide ?
Je suis responsable de la pharmacovigilance au sein d'une structure publique de veille sanitaire. Je souhaite pouvoir exploiter plus largement les sources d'information sur les effets des traitements et garantir une certaine objectivité des analyses à partir des textes libres : l'analyse linguistique automatisée répond-elle à ces objectifs et comment ?
Quand je contacte le service client d'un fournisseur, je veux que ma demande soit correctement prise en compte afin d'obtenir rapidement le bon interlocuteur.
Enseignant dans l'enseignement supérieur, je dois vérifier que les copies de mes étudiants ne contiennent pas d'extraits traduits d'articles scientifiques disponibles en ligne.
Je suis responsable d'une plateforme touristique d'un office de tourisme, et je souhaite proposer aux touristes potentiels des descriptions de mes prestataires et socioprofessionnels prenant en compte les avis clients.
Responsable de la commercialisation de plusieurs titres de presse, je dois acquérir ou fidéliser mes abonnés en ligne en leur proposant l’actualité cruciale, voire critique dans leur activité, parmi des masses d’informations quotidiennes. Les mêmes outils de veille constituent un support précieux pour les journalistes de mes publications, à partir de sources externes.
Je suis directeur de la publication d'un journal d'information généraliste. A l'heure des médias sociaux, tout le monde ou presque peut publier de l'information visible de toute la planète. Cette formidable opportunité est hélas une aubaine pour les rumeurs voire la désinformation délibérée. Ne pas se faire le relais des infox est un devoir des médias désormais inscrit dans la loi. Débusquer et dénoncer la désinformation n'est pas une obligation légale mais un objectif éthique pour les médias.
En tant que directeur de publication, je suis responsable de la conformité juridique des petites annonces publiées dans mes supports.