Qu'est-ce que la fouille de texte ?

Fouille de texte ou text mining?

Le trai­te­ment auto­ma­tique des langues est une étape préa­lable au trai­te­ment infor­ma­tique dans de nom­breuses appli­ca­tions. On consi­dère que les textes en langue natu­relle sont des don­nées non-struc­tu­rées ou, à tout le moins, que leur struc­ture n’est pas direc­te­ment acces­sible à ces appli­ca­tions infor­ma­tiques. La fouille de texte, ou text mining en anglais, regroupe l’en­semble des tech­niques de trai­te­ment de la langue qui visent à extraire l’in­for­ma­tion conte­nue dans les textes afin de la rendre acces­sible à d’autres appli­ca­tions. Il s’a­git donc de déduire des don­nées struc­tu­rées à par­tir de don­nées dites non struc­tu­rées.

Le text mining s’ap­puie sur diverses tech­niques, notamment :

L’extraction d’information, une branche du text mining ?

L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans les docu­ments, des infor­ma­tions de types par­ti­cu­liers, tels que les noms de per­sonnes, de lieux, des mon­tants ou des dates. Elle consiste éga­le­ment à iden­ti­fier et extraire des rela­tions entre ces infor­ma­tions : fusion, acqui­si­tion entre entre­prises, démis­sion d’un diri­geant par exemple. Ces infor­ma­tions, struc­tu­rées, peuvent ser­vir d’en­trées à d’autres appli­ca­tions ou nour­rir une base de données.

Pourquoi utiliser la fouille de textes pour la classification ?

La clas­si­fi­ca­tion de texte vise à ran­ger des docu­ments dans des caté­go­ries pré-éta­blies dans une taxi­no­mie, ou décou­vertes préa­la­ble­ment avec un outil de clus­te­ring. On attri­bue ain­si une ou plu­sieurs éti­quettes – le nom de la ou des caté­go­rie – qui servent de méta­don­nées pour des trai­te­ments ulté­rieurs par une solu­tion de trai­te­ment lin­guis­tique ou par un autre type de solution.

Quel apport de l’analyse des émotions pour le text mining ?

L’a­na­lyse des émo­tions vise à iden­ti­fier la teneur émo­tive – satis­fac­tion pour un ser­vice ou un lieu, répro­ba­tion… – pré­sente dans les textes, et notam­ment ceux pro­duits dans les réseaux sociaux ou les avis en ligne. Comme la clas­si­fi­ca­tion et l’extrac­tion d’in­for­ma­tion, l’a­na­lyse des émo­tions peut être uti­li­sée pour asso­cier des méta­don­nées à ces textes qui peuvent être exploi­tées par d’autres solutions.

Par Alain Couillault
PhD Chargé de Mission Innovation APIL

Études de cas associés

Comment exploiter les données cliniques dans une veille biomédicale ciblée ?

Je suis responsable produit dans l'industrie pharmaceutique et j'aimerais qu'un outil m'aide à exploiter le contenu textuel des essais cliniques, de comptes-rendus, expériences patients, signalements d'effets indésirables dans l'optique d'optimiser la veille de molécules médicamenteuses. Un tel outil peut m'être d'une aide particulièrement précieuse. D'une part, les données disponibles dans le domaine pharmaceutique, de par leur volume et leur diversité, sont difficiles à archiver et analyser à la main, d'autre part, la qualité des articles parus sur les revues médicales est conditionnée par les choix éditoriaux ainsi que d'éventuels conflits d'intérêt. Il me sera donc utile de disposer d'un outil pour que je puisse effectuer, de manière efficace et surtout à partir des sources brutes, une veille ciblée sur un sujet précis.

Création automatique des dossiers de crédit d'entreprise

En tant que responsable de la direction finances et risques d'une banque, je souhaite mettre en place un processus de création automatique des dossiers de crédit aux entreprises à partir des éléments clés : projets de financement, santé financière de l'entreprise, garanties apportées, etc. Cette solution devra être déployée sur l'ensemble du groupe, et notamment être accessible à tous les "risk managers" de l'établissement.

Détecter des phénomènes et signaux peu perceptibles pour les opérateurs humains

Officier des forces de sécurité, j'anime une cellule de surveillance des réseaux criminels de toutes sortes, notamment à partir des interceptions de relations entre les membres de ces réseaux : texte, mais surtout enregistrements audio, dans les langues les plus diverses, parfois rares. Je sais que l'intelligence artificielle permet de mettre en évidence des faits d'intérêt majeur par l'analyse dans le temps de ces données textuelles et aimerais en savoir davantage.

Repérer et quantifier les effets des traitements ainsi que leur contexte d'apparition

Je suis responsable de la pharmacovigilance au sein d'une structure publique de veille sanitaire. Je souhaite pouvoir exploiter plus largement les sources d'information sur les effets des traitements et garantir une certaine objectivité des analyses à partir des textes libres : l'analyse linguistique automatisée répond-elle à ces objectifs et comment ?

Pousser au client l'information qu'il ne cherche pas encore

Responsable de la commercialisation de plusieurs titres de presse, je dois acquérir ou fidéliser mes abonnés en ligne en leur proposant l’actualité cruciale, voire critique dans leur activité, parmi des masses d’informations quotidiennes. Les mêmes outils de veille constituent un support précieux pour les journalistes de mes publications, à partir de sources externes.

Quelle solution de fact checking pour mon ONG ?

Je suis responsable de la communication pour une ONG dans un domaine où l'information au public est essentielle et controversée et où le lobbying est très actif. Je dois repérer quotidiennement les informations diffusées et relayées sur les réseaux sociaux et dans la presse afin d'ajuster ma stratégie de communication. Existe-t-il des solutions de fact checking pour lutter contre la diffusion des infox (fake news) ?