Qu'est-ce que le clustering ?
Sommaire
Le Clustering s’applique à un ensemble de documents (un « corpus ») et consiste à regrouper les documents qui se ressemblent. On forme ainsi des sous-ensembles, ou grappes (clusters en anglais).
Sur quel principe repose le clustering de documents ?
Le clustering repose sur quelques principes simples et intuitifs liés à la fréquence d’occurrence des termes associés à des concepts :
- Si un concept est fréquent dans un document, il est fort probable que ce document traite de ce concept
- Si un concept est très fréquent dans tous les documents du corpus, alors il n’est pas très discriminant pour regrouper des textes.
- Si deux documents ont en commun de nombreux concepts très discriminants, ces deux documents sont probablement très proches et appartiennent au même cluster.
Quelles techniques derrière le clustering ?
D’un point de vue plus mathématique, les techniques utilisées pour identifier ces clusters font appel généralement à la théorie des ensembles et à l’analyse vectorielle : chaque document est positionné dans un espace vectoriel à N dimensions afin de calculer des distances entre documents. Chaque vecteur de cet espace est un terme du corpus.
Une technique commune et efficace de « vectorisation » consiste à considérer les textes comme des ensembles de mots (« bag-of-words ») à utiliser la fréquence des mots dans les textes et dans le corpus. Ainsi:
- si Tf est le nombre d’occurrences d’un mot dans un document
- et si IdF est le nombre de documents dans l’ensemble du corpus contenant ce mot
- alors la valeur associée pour ce vecteur mot à ce document sera une fonction de de TfxIdF.
La distance entre deux documents se réduit à la distance mathématique des vecteurs qui les représentent. On peut ensuite utiliser des algorithmes variés pour effectuer des regroupements de documents proches pour obtenir notre clustering.
Les méthodes de vectorisation sont multiples, elles peuvent par exemple utiliser les plongements lexicaux (word-embeddings) fournis par les systèmes d’apprentissage profond (deep-learning) pour transformer un document en vecteur numérique. D’autres méthodes de clustering, basées sur les probabilités (comme LDA) fournissent un clustering à partir de la sémantique latente extraite des documents.