Catégorisation de documents

Pourquoi catégoriser des documents ?

L’ac­tion de regrou­per les objets en classes est au moins aus­si ancienne que le lan­gage lui-même, et, d’une cer­taine façon, en est la condi­tion pre­mière. Clas­ser des docu­ments est géné­ra­le­ment un préa­lable à tout acti­vi­té de ges­tion d’in­for­ma­tion, la caté­go­ri­sa­tion de docu­ments est une fonc­tion essen­tielle de nom­breuses solu­tions de trai­te­ment auto­ma­tique des langues, que ce soit en ges­tion docu­men­taire, know­ledge mana­ge­ment, ana­lyse de docu­ments web ou d’autres familles de solutions. 

Quelles sont les techniques utilisées pour la catégorisation de documents ? 

Deux tech­niques prin­ci­pales sont géné­ra­le­ment uti­li­sées pour caté­go­ri­ser des docu­ments :

Qu’est-ce que la catégorisation de documents par règles ?

La caté­go­ri­sa­tion de docu­ments par règles consiste à décrire expli­ci­te­ment les règles de clas­se­ment d’un document. 

Ces règles peuvent être de natures variées. On peut notamment :

  • repé­rer la pré­sence de termes ou d’ex­traits pré­sents dans un docu­ment, par exemple pour orien­ter une demande client en fonc­tion d’un nom de produits ;
  • recon­naître la langue d’une demande client pour l’o­rien­ter vers le bon ser­vice de sup­port dans un envi­ron­ne­ment international ; 
  • uti­li­ser des méta­don­nées asso­ciées au docu­ment, par exemple lorsque celui-ci vient d’un for­mu­laire en ligne ;
  • uti­li­ser des méta­don­nées attri­buées par un module de trai­te­ment auto­ma­tique de la langue, par exemple lors­qu’un trai­te­ment en amont a asso­cié le docu­ment à une thé­sau­rus ou une taxi­no­mie.

Qu’est-ce que la classification de documents par apprentissage ?

La caté­go­ri­sa­tion par appren­tis­sage repose sur un cal­cul de dis­tance entre docu­ments. Il faut dans un pre­mier temps dis­po­ser d’un ensemble de docu­ments regrou­pés en classe, par exemple au moyen d’un module de clus­te­ring. On entraîne alors un algo­rithme qui va iden­ti­fier les pro­prié­tés des docu­ments dis­cri­mi­nantes pour chaque classe. Ces pro­prié­tés sont géné­ra­le­ment basés sur les mots pré­sents dans les docu­ments. Grâce à cet appren­tis­sage, le pro­gramme résul­tant asso­cie­ra chaque nou­veau docu­ment avec la classe la plus proche.

Par Alain Couillault
PhD Chargé de Mission Innovation APIL