Catégorisation de documents
Sommaire
Pourquoi catégoriser des documents ?
L’action de regrouper les objets en classes est au moins aussi ancienne que le langage lui-même, et, d’une certaine façon, en est la condition première. Classer des documents est généralement un préalable à tout activité de gestion d’information, la catégorisation de documents est une fonction essentielle de nombreuses solutions de traitement automatique des langues, que ce soit en gestion documentaire, knowledge management, analyse de documents web ou d’autres familles de solutions.
Quelles sont les techniques utilisées pour la catégorisation de documents ?
Deux techniques principales sont généralement utilisées pour catégoriser des documents :
- la catégorisation par règle, où l’on décrit explicitement les règles de classement d’un document ;
- la catégorisation par apprentissage, où l’on entraîne un algorithme de classement des documents.
Qu’est-ce que la catégorisation de documents par règles ?
La catégorisation de documents par règles consiste à décrire explicitement les règles de classement d’un document.
Ces règles peuvent être de natures variées. On peut notamment :
- repérer la présence de termes ou d’extraits présents dans un document, par exemple pour orienter une demande client en fonction d’un nom de produits ;
- reconnaître la langue d’une demande client pour l’orienter vers le bon service de support dans un environnement international ;
- utiliser des métadonnées associées au document, par exemple lorsque celui-ci vient d’un formulaire en ligne ;
- utiliser des métadonnées attribuées par un module de traitement automatique de la langue, par exemple lorsqu’un traitement en amont a associé le document à une thésaurus ou une taxinomie.
Qu’est-ce que la classification de documents par apprentissage ?
La catégorisation par apprentissage repose sur un calcul de distance entre documents. Il faut dans un premier temps disposer d’un ensemble de documents regroupés en classe, par exemple au moyen d’un module de clustering. On entraîne alors un algorithme qui va identifier les propriétés des documents discriminantes pour chaque classe. Ces propriétés sont généralement basés sur les mots présents dans les documents. Grâce à cet apprentissage, le programme résultant associera chaque nouveau document avec la classe la plus proche.