Qu'est-ce que le clustering ?

Le Clus­te­ring s’ap­plique à un ensemble de docu­ments (un « cor­pus ») et consiste à regrou­per les docu­ments qui se res­semblent. On forme ain­si des sous-ensembles, ou grappes (clus­ters en anglais).

Sur quel principe repose le clustering de documents ?

Le clus­te­ring repose sur quelques prin­cipes simples et intui­tifs liés à la fré­quence d’occurrence des termes asso­ciés à des concepts :

  • Si un concept est fré­quent dans un docu­ment, il est fort pro­bable que ce docu­ment traite de ce concept
  • Si un concept est très fré­quent dans tous les docu­ments du cor­pus, alors il n’est pas très dis­cri­mi­nant pour regrou­per des textes.
  • Si deux docu­ments ont en com­mun de nom­breux concepts très dis­cri­mi­nants, ces deux docu­ments sont pro­ba­ble­ment très proches et appar­tiennent au même cluster.

Quelles techniques derrière le clustering ?

D’un point de vue plus mathé­ma­tique, les tech­niques uti­li­sées pour iden­ti­fier ces clus­ters font appel géné­ra­le­ment à la théo­rie des ensembles et à l’a­na­lyse vec­to­rielle : chaque docu­ment est posi­tion­né dans un espace vec­to­riel à N dimen­sions afin de cal­cu­ler des dis­tances entre docu­ments. Chaque vec­teur de cet espace est un terme du corpus.

Une tech­nique com­mune et effi­cace de « vec­to­ri­sa­tion » consiste à consi­dé­rer les textes comme des ensembles de mots (« bag-of-words ») à uti­li­ser la fré­quence des mots dans les textes et dans le cor­pus. Ainsi:

  • si Tf est le nombre d’occurrences d’un mot dans un document
  • et si IdF est le nombre de docu­ments dans l’en­semble du cor­pus conte­nant ce mot
  • alors la valeur asso­ciée pour ce vec­teur mot à ce docu­ment sera une fonc­tion de de TfxIdF.

La dis­tance entre deux docu­ments se réduit à la dis­tance mathé­ma­tique des vec­teurs qui les repré­sentent. On peut ensuite uti­li­ser des algo­rithmes variés pour effec­tuer des regrou­pe­ments de docu­ments proches pour obte­nir notre clustering.

Les méthodes de vec­to­ri­sa­tion sont mul­tiples, elles peuvent par exemple uti­li­ser les plon­ge­ments lexi­caux (word-embed­dings) four­nis par les sys­tèmes d’appren­tis­sage pro­fond (deep-lear­ning) pour trans­for­mer un docu­ment en vec­teur numé­rique. D’autres méthodes de clus­te­ring, basées sur les pro­ba­bi­li­tés (comme LDA) four­nissent un clus­te­ring à par­tir de la séman­tique latente extraite des documents.

Par Alain Couillault
PhD Chargé de Mission Innovation APIL

Études de cas associés

Qualifier automatiquement les leads : un gain de temps et de précision

Je suis responsable commercial du service de ventes en ligne pour une entreprise de vente de produits sportifs, et dans le cadre du processus de gestion de nos leads, je souhaite disposer d'une solution pour aider les commerciaux de mon équipe à qualifier automatiquement les leads et à les classer en fonction de leur profil ou de leurs intentions d'achat.

Quantifier des opinions dans des réponses libres : un défi

Je suis décideur dans un institut d'études marketing et de sondage d'opinion. Je souhaite lancer des enquêtes incluant des questions ouvertes pour leur richesse. Mais comment dépouiller toutes ces contributions en texte libre ?

Repérer et quantifier les effets des traitements ainsi que leur contexte d'apparition

Je suis responsable de la pharmacovigilance au sein d'une structure publique de veille sanitaire. Je souhaite pouvoir exploiter plus largement les sources d'information sur les effets des traitements et garantir une certaine objectivité des analyses à partir des textes libres : l'analyse linguistique automatisée répond-elle à ces objectifs et comment ?

Je souhaite contacter le SAV d'un site de commerce en ligne

Quand je contacte le service client d'un fournisseur, je veux que ma demande soit correctement prise en compte afin d'obtenir rapidement le bon interlocuteur.

Pousser au client l'information qu'il ne cherche pas encore

Responsable de la commercialisation de plusieurs titres de presse, je dois acquérir ou fidéliser mes abonnés en ligne en leur proposant l’actualité cruciale, voire critique dans leur activité, parmi des masses d’informations quotidiennes. Les mêmes outils de veille constituent un support précieux pour les journalistes de mes publications, à partir de sources externes.