Extraction d'information, de quoi s'agit-il ?

L’extraction d’information, à quoi ça sert ?

L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de lieux, rela­tions entre entre­prises, dates, montants…

De nom­breuses appli­ca­tions du trai­te­ment auto­ma­tique des langues néces­sitent de pou­voir extraire des infor­ma­tions conte­nues dans les docu­ments en langue natu­relle. On peut, par exemple: 

  • vou­loir recon­naître l’en­semble des noms de per­sonnes conte­nus dans un texte pour pou­voir les anonymiser
  • iden­ti­fier les com­pé­tences d’un can­di­dat dans un cur­ri­cu­lum vitae
  • retrou­ver les rela­tions entre dif­fé­rentes entre­prises pour une acti­vi­té de veille.
  • nour­rir une base de don­nées à par­tir d’élé­ments extraits de docu­ments non structurés.

Qu’appelle-t-on entités nommées ?

Le pre­mier niveau d’ex­trac­tion d’in­for­ma­tion consiste à repé­rer les enti­tés nom­mées, c’est à dire des seg­ments de textes d’un type par­ti­cu­lier, par exemple des noms propres, des nombres ou des dates. 

Reconnaître des entités nommées, comment ça marche ?

Dif­fé­rentes stra­té­gies peuvent être uti­li­sées pour recon­naître des enti­tés nom­mées comme la recon­nais­sance de patrons d’ex­trac­tion par­ti­cu­liers. La recon­nais­sance des noms de per­sonnes pour­ra par ain­si uti­li­ser, notam­ment, un dic­tion­naire des pré­noms ou cer­taines infor­ma­tions de contexte telles les titres (Mon­sieur, Mme) ou les appo­si­tions (X, Pré­sident de la socié­té Y).

La recon­nais­sance d’en­ti­tés nom­mées peut éga­le­ment faire appel à des patrons séman­tiques, il s’a­git alors de recon­naître des enti­tés nom­mées de types par­ti­cu­lier (noms de per­sonnes, entre­prises, verbes) et d’in­duire des rela­tions entre ces entités. 

Par exemple, le patron PERSONNE est le direc­teur de SOCIETE per­met­tra d’ex­traire le lien entre les enti­tés à par­tir de la phrase « John Cham­bers est le patron de Cis­co ».

Les algorithmes d’apprentissage automatique peuvent-ils découvrir de nouveaux patrons d’extraction ?

Il est pos­sible d’en­traî­ner un algo­rithme d’in­tel­li­gence arti­fi­cielle pour la recon­nais­sance de rela­tions dans des corpus.

On construit d’a­bord un cor­pus anno­té, c’est à dire que l’on a indi­qué les rela­tions entre seg­ments d’un cor­pus. Par exemple, des noms d’en­tre­prises et des rela­tions (acqui­si­tion, fusion, …). 

Par Alain Couillault
PhD Chargé de Mission Innovation APIL