Qu'est-ce que le clustering ?
Sommaire
Le Clustering s’applique à un ensemble de documents (un « corpus ») et consiste à regrouper les documents qui se ressemblent. On forme ainsi des sous-ensembles, ou grappes (clusters en anglais).
Sur quel principe repose le clustering de documents ?
Le clustering repose sur quelques principes simples et intuitifs liés à la fréquence d’occurrence des termes associés à des concepts :
- Si un concept est fréquent dans un document, il est fort probable que ce document traite de ce concept
- Si un concept est très fréquent dans tous les documents du corpus, alors il n’est pas très discriminant pour regrouper des textes.
- Si deux documents ont en commun de nombreux concepts très discriminants, ces deux documents sont probablement très proches et appartiennent au même cluster.
Quelles techniques derrière le clustering ?
D’un point de vue plus mathématique, les techniques utilisées pour identifier ces clusters font appel généralement à la théorie des ensembles et à l’analyse vectorielle : chaque document est positionné dans un espace vectoriel à N dimensions afin de calculer des distances entre documents. Chaque vecteur de cet espace est un terme du corpus.
Une technique commune et efficace de « vectorisation » consiste à considérer les textes comme des ensembles de mots (« bag-of-words ») à utiliser la fréquence des mots dans les textes et dans le corpus. Ainsi:
- si Tf est le nombre d’occurrences d’un mot dans un document
- et si IdF est le nombre de documents dans l’ensemble du corpus contenant ce mot
- alors la valeur associée pour ce vecteur mot à ce document sera une fonction de de TfxIdF.
La distance entre deux documents se réduit à la distance mathématique des vecteurs qui les représentent. On peut ensuite utiliser des algorithmes variés pour effectuer des regroupements de documents proches pour obtenir notre clustering.
Les méthodes de vectorisation sont multiples, elles peuvent par exemple utiliser les plongements lexicaux (word-embeddings) fournis par les systèmes d’apprentissage profond (deep-learning) pour transformer un document en vecteur numérique. D’autres méthodes de clustering, basées sur les probabilités (comme LDA) fournissent un clustering à partir de la sémantique latente extraite des documents.
Études de cas associés
Je suis responsable de l’unité de gestion des sinistres dans une compagnie d’assurance. Mon équipe doit traiter une quantité importante de réclamations pour acheminer le plus vite possible les demandes vers l'équipe appropriée afin d'éviter le mécontentement des clients et en vue d’un traitement efficace.
Je suis responsable commercial du service de ventes en ligne pour une entreprise de vente de produits sportifs, et dans le cadre du processus de gestion de nos leads, je souhaite disposer d'une solution pour aider les commerciaux de mon équipe à qualifier automatiquement les leads et à les classer en fonction de leur profil ou de leurs intentions d'achat.
Je suis décideur dans un institut d'études marketing et de sondage d'opinion. Je souhaite lancer des enquêtes incluant des questions ouvertes pour leur richesse. Mais comment dépouiller toutes ces contributions en texte libre ?
Je suis responsable de la pharmacovigilance au sein d'une structure publique de veille sanitaire. Je souhaite pouvoir exploiter plus largement les sources d'information sur les effets des traitements et garantir une certaine objectivité des analyses à partir des textes libres : l'analyse linguistique automatisée répond-elle à ces objectifs et comment ?
Quand je contacte le service client d'un fournisseur, je veux que ma demande soit correctement prise en compte afin d'obtenir rapidement le bon interlocuteur.
Responsable de la commercialisation de plusieurs titres de presse, je dois acquérir ou fidéliser mes abonnés en ligne en leur proposant l’actualité cruciale, voire critique dans leur activité, parmi des masses d’informations quotidiennes. Les mêmes outils de veille constituent un support précieux pour les journalistes de mes publications, à partir de sources externes.