Extraction d'information, de quoi s'agit-il ?
Sommaire
L’extraction d’information, à quoi ça sert ?
L’extraction d’information consiste à identifier, dans des textes en langue naturelle, des informations types : noms de personnes ou de lieux, relations entre entreprises, dates, montants…
De nombreuses applications du traitement automatique des langues nécessitent de pouvoir extraire des informations contenues dans les documents en langue naturelle. On peut, par exemple:
- vouloir reconnaître l’ensemble des noms de personnes contenus dans un texte pour pouvoir les anonymiser
- identifier les compétences d’un candidat dans un curriculum vitae
- retrouver les relations entre différentes entreprises pour une activité de veille.
- nourrir une base de données à partir d’éléments extraits de documents non structurés.
Qu’appelle-t-on entités nommées ?
Le premier niveau d’extraction d’information consiste à repérer les entités nommées, c’est à dire des segments de textes d’un type particulier, par exemple des noms propres, des nombres ou des dates.
Reconnaître des entités nommées, comment ça marche ?
Différentes stratégies peuvent être utilisées pour reconnaître des entités nommées comme la reconnaissance de patrons d’extraction particuliers. La reconnaissance des noms de personnes pourra par ainsi utiliser, notamment, un dictionnaire des prénoms ou certaines informations de contexte telles les titres (Monsieur, Mme) ou les appositions (X, Président de la société Y).
La reconnaissance d’entités nommées peut également faire appel à des patrons sémantiques, il s’agit alors de reconnaître des entités nommées de types particulier (noms de personnes, entreprises, verbes) et d’induire des relations entre ces entités.
Par exemple, le patron PERSONNE est le directeur de SOCIETE permettra d’extraire le lien entre les entités à partir de la phrase « John Chambers est le patron de Cisco ».
Les algorithmes d’apprentissage automatique peuvent-ils découvrir de nouveaux patrons d’extraction ?
Il est possible d’entraîner un algorithme d’intelligence artificielle pour la reconnaissance de relations dans des corpus.
On construit d’abord un corpus annoté, c’est à dire que l’on a indiqué les relations entre segments d’un corpus. Par exemple, des noms d’entreprises et des relations (acquisition, fusion, …).