Catégorisation de documents
Sommaire
Pourquoi catégoriser des documents ?
L’action de regrouper les objets en classes est au moins aussi ancienne que le langage lui-même, et, d’une certaine façon, en est la condition première. Classer des documents est généralement un préalable à tout activité de gestion d’information, la catégorisation de documents est une fonction essentielle de nombreuses solutions de traitement automatique des langues, que ce soit en gestion documentaire, knowledge management, analyse de documents web ou d’autres familles de solutions.
Quelles sont les techniques utilisées pour la catégorisation de documents ?
Deux techniques principales sont généralement utilisées pour catégoriser des documents :
- la catégorisation par règle, où l’on décrit explicitement les règles de classement d’un document ;
- la catégorisation par apprentissage, où l’on entraîne un algorithme de classement des documents.
Qu’est-ce que la catégorisation de documents par règles ?
La catégorisation de documents par règles consiste à décrire explicitement les règles de classement d’un document.
Ces règles peuvent être de natures variées. On peut notamment :
- repérer la présence de termes ou d’extraits présents dans un document, par exemple pour orienter une demande client en fonction d’un nom de produits ;
- reconnaître la langue d’une demande client pour l’orienter vers le bon service de support dans un environnement international ;
- utiliser des métadonnées associées au document, par exemple lorsque celui-ci vient d’un formulaire en ligne ;
- utiliser des métadonnées attribuées par un module de traitement automatique de la langue, par exemple lorsqu’un traitement en amont a associé le document à une thésaurus ou une taxinomie.
Qu’est-ce que la classification de documents par apprentissage ?
La catégorisation par apprentissage repose sur un calcul de distance entre documents. Il faut dans un premier temps disposer d’un ensemble de documents regroupés en classe, par exemple au moyen d’un module de clustering. On entraîne alors un algorithme qui va identifier les propriétés des documents discriminantes pour chaque classe. Ces propriétés sont généralement basés sur les mots présents dans les documents. Grâce à cet apprentissage, le programme résultant associera chaque nouveau document avec la classe la plus proche.
Études de cas associés
En tant que Directeur de Production en transformation numérique dans une entreprise de vente en ligne, je souhaite mettre en place une solution d'IA avec apprentissage. Nous ne disposons que d'un faible volume de données et nous travaillons notamment sur l'analyse sentimentale des commentaires de clients qui nous sont parvenus grâce à notre site.
Je suis responsable de l’unité de gestion des sinistres dans une compagnie d’assurance. Mon équipe doit traiter une quantité importante de réclamations pour acheminer le plus vite possible les demandes vers l'équipe appropriée afin d'éviter le mécontentement des clients et en vue d’un traitement efficace.
Je suis responsable du service après-vente d'un site de vente en ligne et nous avons actuellement un système de prédiction automatique permettant de classer les avis de clients comme positifs, négatifs et neutres. Cependant, nous aimerions un système de détection qui, au lieu de donner une étiquette globale à un texte entier, fournisse des informations à un niveau plus fin. Existe-t-il des solutions de ce genre ?
Je suis responsable commercial du service de ventes en ligne pour une entreprise de vente de produits sportifs, et dans le cadre du processus de gestion de nos leads, je souhaite disposer d'une solution pour aider les commerciaux de mon équipe à qualifier automatiquement les leads et à les classer en fonction de leur profil ou de leurs intentions d'achat.
CTO d'une société de fournitures électriques pour professionnels, mon service gère la plate-forme B2B et le SRI (Système de Recherche d'Information) derrière le formulaire de recherche produits. Or aujourd'hui, lorsque un client cherche des dominos par exemple, il ne trouve pas les barrettes de connexion. L'indexation des fiches produits et le traitement des requêtes s'appuient pourtant sur un référentiel. Il a été élaboré au fil de l'eau à partir du plan de classement du site et nous ne parvenons pas à le maintenir ou à l'étendre. Comment réorganiser cette ressource rapidement pour améliorer notre fonctionnalité de recherche et l'expérience utilisateurs ?
Je suis responsable du service client de mon entreprise. Mon équipe et moi devons traiter quotidiennement un volume important de demandes clients dans un environnement multicanal, avec une réactivité optimale.
Je suis responsable produit dans l'industrie pharmaceutique et j'aimerais qu'un outil m'aide à exploiter le contenu textuel des essais cliniques, de comptes-rendus, expériences patients, signalements d'effets indésirables dans l'optique d'optimiser la veille de molécules médicamenteuses. Un tel outil peut m'être d'une aide particulièrement précieuse. D'une part, les données disponibles dans le domaine pharmaceutique, de par leur volume et leur diversité, sont difficiles à archiver et analyser à la main, d'autre part, la qualité des articles parus sur les revues médicales est conditionnée par les choix éditoriaux ainsi que d'éventuels conflits d'intérêt. Il me sera donc utile de disposer d'un outil pour que je puisse effectuer, de manière efficace et surtout à partir des sources brutes, une veille ciblée sur un sujet précis.
Directeur de publication dans un groupe de presse, je suis responsable de la visibilité de mon journal dans l'espace numérique. Nos titres sont présents sur de nombreux réseaux sociaux et des blogs, où les publications sont ouvertes aux commentaires du public. La modération de ces pages est une responsabilité pour notre publication, une nécessité pour son image et une charge pour les équipes en charge de l'animation numérique. De plus, il est nécessaire de s'assurer que la modération des propos déposés par les internautes soit en ligne avec la Charte de bonnes pratiques de la publication. L'intelligence artificielle et les technologies du langage naturel peuvent-elles préparer, faciliter et accélérer la modération ?
Je suis décideur dans un institut d'études marketing et de sondage d'opinion. Je souhaite lancer des enquêtes incluant des questions ouvertes pour leur richesse. Mais comment dépouiller toutes ces contributions en texte libre ?
Je dispose de contenus précieux reflétant l’expérience, la satisfaction, les attentes de mes clients. Mais autant les contenus en texte libre sont riches, autant ils sont complexes à exploiter. L'analyse linguistique peut-elle m'apporter une aide ?
Je suis responsable de la pharmacovigilance au sein d'une structure publique de veille sanitaire. Je souhaite pouvoir exploiter plus largement les sources d'information sur les effets des traitements et garantir une certaine objectivité des analyses à partir des textes libres : l'analyse linguistique automatisée répond-elle à ces objectifs et comment ?
Quand je contacte le service client d'un fournisseur, je veux que ma demande soit correctement prise en compte afin d'obtenir rapidement le bon interlocuteur.
Je suis responsable de la communication pour une ONG dans un domaine où l'information au public est essentielle et controversée et où le lobbying est très actif. Je dois repérer quotidiennement les informations diffusées et relayées sur les réseaux sociaux et dans la presse afin d'ajuster ma stratégie de communication. Existe-t-il des solutions de fact checking pour lutter contre la diffusion des infox (fake news) ?
En tant que directeur de publication, je suis responsable de la conformité juridique des petites annonces publiées dans mes supports.