Qu'est-ce que la fouille de texte ?
Sommaire
Fouille de texte ou text mining?
Le traitement automatique des langues est une étape préalable au traitement informatique dans de nombreuses applications. On considère que les textes en langue naturelle sont des données non-structurées ou, à tout le moins, que leur structure n’est pas directement accessible à ces applications informatiques. La fouille de texte, ou text mining en anglais, regroupe l’ensemble des techniques de traitement de la langue qui visent à extraire l’information contenue dans les textes afin de la rendre accessible à d’autres applications. Il s’agit donc de déduire des données structurées à partir de données dites non structurées.
Le text mining s’appuie sur diverses techniques, notamment :
- l’extraction d’information
- la classification
- l’analyse des émotions
- la gestion de taxonomies
L’extraction d’information, une branche du text mining ?
L’extraction d’information consiste à identifier, dans les documents, des informations de types particuliers, tels que les noms de personnes, de lieux, des montants ou des dates. Elle consiste également à identifier et extraire des relations entre ces informations : fusion, acquisition entre entreprises, démission d’un dirigeant par exemple. Ces informations, structurées, peuvent servir d’entrées à d’autres applications ou nourrir une base de données.
Pourquoi utiliser la fouille de textes pour la classification ?
La classification de texte vise à ranger des documents dans des catégories pré-établies dans une taxinomie, ou découvertes préalablement avec un outil de clustering. On attribue ainsi une ou plusieurs étiquettes – le nom de la ou des catégorie – qui servent de métadonnées pour des traitements ultérieurs par une solution de traitement linguistique ou par un autre type de solution.
Quel apport de l’analyse des émotions pour le text mining ?
L’analyse des émotions vise à identifier la teneur émotive – satisfaction pour un service ou un lieu, réprobation… – présente dans les textes, et notamment ceux produits dans les réseaux sociaux ou les avis en ligne. Comme la classification et l’extraction d’information, l’analyse des émotions peut être utilisée pour associer des métadonnées à ces textes qui peuvent être exploitées par d’autres solutions.