Qu'est-ce que la fouille de texte ?
Sommaire
Fouille de texte ou text mining?
Le traitement automatique des langues est une étape préalable au traitement informatique dans de nombreuses applications. On considère que les textes en langue naturelle sont des données non-structurées ou, à tout le moins, que leur structure n’est pas directement accessible à ces applications informatiques. La fouille de texte, ou text mining en anglais, regroupe l’ensemble des techniques de traitement de la langue qui visent à extraire l’information contenue dans les textes afin de la rendre accessible à d’autres applications. Il s’agit donc de déduire des données structurées à partir de données dites non structurées.
Le text mining s’appuie sur diverses techniques, notamment :
- l’extraction d’information
- la classification
- l’analyse des émotions
- la gestion de taxonomies
L’extraction d’information, une branche du text mining ?
L’extraction d’information consiste à identifier, dans les documents, des informations de types particuliers, tels que les noms de personnes, de lieux, des montants ou des dates. Elle consiste également à identifier et extraire des relations entre ces informations : fusion, acquisition entre entreprises, démission d’un dirigeant par exemple. Ces informations, structurées, peuvent servir d’entrées à d’autres applications ou nourrir une base de données.
Pourquoi utiliser la fouille de textes pour la classification ?
La classification de texte vise à ranger des documents dans des catégories pré-établies dans une taxinomie, ou découvertes préalablement avec un outil de clustering. On attribue ainsi une ou plusieurs étiquettes – le nom de la ou des catégorie – qui servent de métadonnées pour des traitements ultérieurs par une solution de traitement linguistique ou par un autre type de solution.
Quel apport de l’analyse des émotions pour le text mining ?
L’analyse des émotions vise à identifier la teneur émotive – satisfaction pour un service ou un lieu, réprobation… – présente dans les textes, et notamment ceux produits dans les réseaux sociaux ou les avis en ligne. Comme la classification et l’extraction d’information, l’analyse des émotions peut être utilisée pour associer des métadonnées à ces textes qui peuvent être exploitées par d’autres solutions.
Études de cas associés
Je suis dirigeant d’une entreprise informatique et mes équipes effectuent une veille technologique régulière afin de me tenir au courant de l’évolution de notre secteur d’activités, de la concurrence et des avancées technologiques potentielles. Cependant, je souhaiterais que mes équipes aillent au-delà de la veille et puissent me prévenir de ce qui va se passer autour de moi, dans mon activité, afin de m’aider à définir ma stratégie d'entreprise à court et moyen terme. Comment puis-je faire ?
Je suis responsable produit dans l'industrie pharmaceutique et j'aimerais qu'un outil m'aide à exploiter le contenu textuel des essais cliniques, de comptes-rendus, expériences patients, signalements d'effets indésirables dans l'optique d'optimiser la veille de molécules médicamenteuses. Un tel outil peut m'être d'une aide particulièrement précieuse. D'une part, les données disponibles dans le domaine pharmaceutique, de par leur volume et leur diversité, sont difficiles à archiver et analyser à la main, d'autre part, la qualité des articles parus sur les revues médicales est conditionnée par les choix éditoriaux ainsi que d'éventuels conflits d'intérêt. Il me sera donc utile de disposer d'un outil pour que je puisse effectuer, de manière efficace et surtout à partir des sources brutes, une veille ciblée sur un sujet précis.
En tant que responsable de la direction finances et risques d'une banque, je souhaite mettre en place un processus de création automatique des dossiers de crédit aux entreprises à partir des éléments clés : projets de financement, santé financière de l'entreprise, garanties apportées, etc. Cette solution devra être déployée sur l'ensemble du groupe, et notamment être accessible à tous les "risk managers" de l'établissement.
Officier des forces de sécurité, j'anime une cellule de surveillance des réseaux criminels de toutes sortes, notamment à partir des interceptions de relations entre les membres de ces réseaux : texte, mais surtout enregistrements audio, dans les langues les plus diverses, parfois rares. Je sais que l'intelligence artificielle permet de mettre en évidence des faits d'intérêt majeur par l'analyse dans le temps de ces données textuelles et aimerais en savoir davantage.
Je suis responsable de la pharmacovigilance au sein d'une structure publique de veille sanitaire. Je souhaite pouvoir exploiter plus largement les sources d'information sur les effets des traitements et garantir une certaine objectivité des analyses à partir des textes libres : l'analyse linguistique automatisée répond-elle à ces objectifs et comment ?
Responsable de la commercialisation de plusieurs titres de presse, je dois acquérir ou fidéliser mes abonnés en ligne en leur proposant l’actualité cruciale, voire critique dans leur activité, parmi des masses d’informations quotidiennes. Les mêmes outils de veille constituent un support précieux pour les journalistes de mes publications, à partir de sources externes.
Je suis responsable de la communication pour une ONG dans un domaine où l'information au public est essentielle et controversée et où le lobbying est très actif. Je dois repérer quotidiennement les informations diffusées et relayées sur les réseaux sociaux et dans la presse afin d'ajuster ma stratégie de communication. Existe-t-il des solutions de fact checking pour lutter contre la diffusion des infox (fake news) ?