Qu'est-ce que la fouille de texte ?

Fouille de texte ou text mining?

Le trai­te­ment auto­ma­tique des langues est une étape préa­lable au trai­te­ment infor­ma­tique dans de nom­breuses appli­ca­tions. On consi­dère que les textes en langue natu­relle sont des don­nées non-struc­tu­rées ou, à tout le moins, que leur struc­ture n’est pas direc­te­ment acces­sible à ces appli­ca­tions infor­ma­tiques. La fouille de texte, ou text mining en anglais, regroupe l’en­semble des tech­niques de trai­te­ment de la langue qui visent à extraire l’in­for­ma­tion conte­nue dans les textes afin de la rendre acces­sible à d’autres appli­ca­tions. Il s’a­git donc de déduire des don­nées struc­tu­rées à par­tir de don­nées dites non struc­tu­rées.

Le text mining s’ap­puie sur diverses tech­niques, notamment :

L’extraction d’information, une branche du text mining ?

L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans les docu­ments, des infor­ma­tions de types par­ti­cu­liers, tels que les noms de per­sonnes, de lieux, des mon­tants ou des dates. Elle consiste éga­le­ment à iden­ti­fier et extraire des rela­tions entre ces infor­ma­tions : fusion, acqui­si­tion entre entre­prises, démis­sion d’un diri­geant par exemple. Ces infor­ma­tions, struc­tu­rées, peuvent ser­vir d’en­trées à d’autres appli­ca­tions ou nour­rir une base de données.

Pourquoi utiliser la fouille de textes pour la classification ?

La clas­si­fi­ca­tion de texte vise à ran­ger des docu­ments dans des caté­go­ries pré-éta­blies dans une taxi­no­mie, ou décou­vertes préa­la­ble­ment avec un outil de clus­te­ring. On attri­bue ain­si une ou plu­sieurs éti­quettes – le nom de la ou des caté­go­rie – qui servent de méta­don­nées pour des trai­te­ments ulté­rieurs par une solu­tion de trai­te­ment lin­guis­tique ou par un autre type de solution.

Quel apport de l’analyse des émotions pour le text mining ?

L’a­na­lyse des émo­tions vise à iden­ti­fier la teneur émo­tive – satis­fac­tion pour un ser­vice ou un lieu, répro­ba­tion… – pré­sente dans les textes, et notam­ment ceux pro­duits dans les réseaux sociaux ou les avis en ligne. Comme la clas­si­fi­ca­tion et l’extrac­tion d’in­for­ma­tion, l’a­na­lyse des émo­tions peut être uti­li­sée pour asso­cier des méta­don­nées à ces textes qui peuvent être exploi­tées par d’autres solutions.

Par Alain Couillault
PhD Chargé de Mission Innovation APIL