Catégorisation de documents

Pourquoi catégoriser des documents ?

L’ac­tion de regrou­per les objets en classes est au moins aus­si ancienne que le lan­gage lui-même, et, d’une cer­taine façon, en est la condi­tion pre­mière. Clas­ser des docu­ments est géné­ra­le­ment un préa­lable à tout acti­vi­té de ges­tion d’in­for­ma­tion, la caté­go­ri­sa­tion de docu­ments est une fonc­tion essen­tielle de nom­breuses solu­tions de trai­te­ment auto­ma­tique des langues, que ce soit en ges­tion docu­men­taire, know­ledge mana­ge­ment, ana­lyse de docu­ments web ou d’autres familles de solutions. 

Quelles sont les techniques utilisées pour la catégorisation de documents ? 

Deux tech­niques prin­ci­pales sont géné­ra­le­ment uti­li­sées pour caté­go­ri­ser des docu­ments :

Qu’est-ce que la catégorisation de documents par règles ?

La caté­go­ri­sa­tion de docu­ments par règles consiste à décrire expli­ci­te­ment les règles de clas­se­ment d’un document. 

Ces règles peuvent être de natures variées. On peut notamment :

  • repé­rer la pré­sence de termes ou d’ex­traits pré­sents dans un docu­ment, par exemple pour orien­ter une demande client en fonc­tion d’un nom de produits ;
  • recon­naître la langue d’une demande client pour l’o­rien­ter vers le bon ser­vice de sup­port dans un envi­ron­ne­ment international ; 
  • uti­li­ser des méta­don­nées asso­ciées au docu­ment, par exemple lorsque celui-ci vient d’un for­mu­laire en ligne ;
  • uti­li­ser des méta­don­nées attri­buées par un module de trai­te­ment auto­ma­tique de la langue, par exemple lors­qu’un trai­te­ment en amont a asso­cié le docu­ment à une thé­sau­rus ou une taxi­no­mie.

Qu’est-ce que la classification de documents par apprentissage ?

La caté­go­ri­sa­tion par appren­tis­sage repose sur un cal­cul de dis­tance entre docu­ments. Il faut dans un pre­mier temps dis­po­ser d’un ensemble de docu­ments regrou­pés en classe, par exemple au moyen d’un module de clus­te­ring. On entraîne alors un algo­rithme qui va iden­ti­fier les pro­prié­tés des docu­ments dis­cri­mi­nantes pour chaque classe. Ces pro­prié­tés sont géné­ra­le­ment basés sur les mots pré­sents dans les docu­ments. Grâce à cet appren­tis­sage, le pro­gramme résul­tant asso­cie­ra chaque nou­veau docu­ment avec la classe la plus proche.

Par Alain Couillault
PhD Chargé de Mission Innovation APIL

Études de cas associés

Classer la polarité des avis clients de manière fine

Je suis responsable du service après-vente d'un site de vente en ligne et nous avons actuellement un système de prédiction automatique permettant de classer les avis de clients comme positifs, négatifs et neutres. Cependant, nous aimerions un système de détection qui, au lieu de donner une étiquette globale à un texte entier, fournisse des informations à un niveau plus fin. Existe-t-il des solutions de ce genre ?

Qualifier automatiquement les leads : un gain de temps et de précision

Je suis responsable commercial du service de ventes en ligne pour une entreprise de vente de produits sportifs, et dans le cadre du processus de gestion de nos leads, je souhaite disposer d'une solution pour aider les commerciaux de mon équipe à qualifier automatiquement les leads et à les classer en fonction de leur profil ou de leurs intentions d'achat.

Comment améliorer la recherche sur mon site de vente en ligne ?

CTO d'une société de fournitures électriques pour professionnels, mon service gère la plate-forme B2B et le SRI (Système de Recherche d'Information) derrière le formulaire de recherche produits. Or aujourd'hui, lorsque un client cherche des dominos par exemple, il ne trouve pas les barrettes de connexion. L'indexation des fiches produits et le traitement des requêtes s'appuient pourtant sur un référentiel. Il a été élaboré au fil de l'eau à partir du plan de classement du site et nous ne parvenons pas à le maintenir ou à l'étendre. Comment réorganiser cette ressource rapidement pour améliorer notre fonctionnalité de recherche et l'expérience utilisateurs ?

La relation client multicanale : comment équilibrer le service entre coût et opportunités ?

Je suis responsable du service client de mon entreprise. Mon équipe et moi devons traiter quotidiennement un volume important de demandes clients dans un environnement multicanal, avec une réactivité optimale.

Comment exploiter les données cliniques dans une veille biomédicale ciblée ?

Je suis responsable produit dans l'industrie pharmaceutique et j'aimerais qu'un outil m'aide à exploiter le contenu textuel des essais cliniques, de comptes-rendus, expériences patients, signalements d'effets indésirables dans l'optique d'optimiser la veille de molécules médicamenteuses. Un tel outil peut m'être d'une aide particulièrement précieuse. D'une part, les données disponibles dans le domaine pharmaceutique, de par leur volume et leur diversité, sont difficiles à archiver et analyser à la main, d'autre part, la qualité des articles parus sur les revues médicales est conditionnée par les choix éditoriaux ainsi que d'éventuels conflits d'intérêt. Il me sera donc utile de disposer d'un outil pour que je puisse effectuer, de manière efficace et surtout à partir des sources brutes, une veille ciblée sur un sujet précis.

Modérer mes médias sociaux : peut-on alléger et fiabiliser la tâche ?

Directeur de publication dans un groupe de presse, je suis responsable de la visibilité de mon journal dans l'espace numérique. Nos titres sont présents sur de nombreux réseaux sociaux et des blogs, où les publications sont ouvertes aux commentaires du public. La modération de ces pages est une responsabilité pour notre publication, une nécessité pour son image et une charge pour les équipes en charge de l'animation numérique. De plus, il est nécessaire de s'assurer que la modération des propos déposés par les internautes soit en ligne avec la Charte de bonnes pratiques de la publication. L'intelligence artificielle et les technologies du langage naturel peuvent-elles préparer, faciliter et accélérer la modération ?

Quantifier des opinions dans des réponses libres : un défi

Je suis décideur dans un institut d'études marketing et de sondage d'opinion. Je souhaite lancer des enquêtes incluant des questions ouvertes pour leur richesse. Mais comment dépouiller toutes ces contributions en texte libre ?

Les avis clients en texte libre : une mine de pépites, mais comment les extraire et les mesurer ?

Je dispose de contenus précieux reflétant l’expérience, la satisfaction, les attentes de mes clients. Mais autant les contenus en texte libre sont riches, autant ils sont complexes à exploiter. L'analyse linguistique peut-elle m'apporter une aide ?

Repérer et quantifier les effets des traitements ainsi que leur contexte d'apparition

Je suis responsable de la pharmacovigilance au sein d'une structure publique de veille sanitaire. Je souhaite pouvoir exploiter plus largement les sources d'information sur les effets des traitements et garantir une certaine objectivité des analyses à partir des textes libres : l'analyse linguistique automatisée répond-elle à ces objectifs et comment ?

Je souhaite contacter le SAV d'un site de commerce en ligne

Quand je contacte le service client d'un fournisseur, je veux que ma demande soit correctement prise en compte afin d'obtenir rapidement le bon interlocuteur.

Quelle solution de fact checking pour mon ONG ?

Je suis responsable de la communication pour une ONG dans un domaine où l'information au public est essentielle et controversée et où le lobbying est très actif. Je dois repérer quotidiennement les informations diffusées et relayées sur les réseaux sociaux et dans la presse afin d'ajuster ma stratégie de communication. Existe-t-il des solutions de fact checking pour lutter contre la diffusion des infox (fake news) ?

Laisser passer une petite annonce illégale : une hantise pour les directions de publication

En tant que directeur de publication, je suis responsable de la conformité juridique des petites annonces publiées dans mes supports.