Qu'est-ce que le clustering ?

Le Clus­te­ring s’ap­plique à un ensemble de docu­ments (un « cor­pus ») et consiste à regrou­per les docu­ments qui se res­semblent. On forme ain­si des sous-ensembles, ou grappes (clus­ters en anglais).

Sur quel principe repose le clustering de documents ?

Le clus­te­ring repose sur quelques prin­cipes simples et intui­tifs liés à la fré­quence d’occurrence des termes asso­ciés à des concepts :

  • Si un concept est fré­quent dans un docu­ment, il est fort pro­bable que ce docu­ment traite de ce concept
  • Si un concept est très fré­quent dans tous les docu­ments du cor­pus, alors il n’est pas très dis­cri­mi­nant pour regrou­per des textes.
  • Si deux docu­ments ont en com­mun de nom­breux concepts très dis­cri­mi­nants, ces deux docu­ments sont pro­ba­ble­ment très proches et appar­tiennent au même cluster.

Quelles techniques derrière le clustering ?

D’un point de vue plus mathé­ma­tique, les tech­niques uti­li­sées pour iden­ti­fier ces clus­ters font appel géné­ra­le­ment à la théo­rie des ensembles et à l’a­na­lyse vec­to­rielle : chaque docu­ment est posi­tion­né dans un espace vec­to­riel à N dimen­sions afin de cal­cu­ler des dis­tances entre docu­ments. Chaque vec­teur de cet espace est un terme du corpus.

Une tech­nique com­mune et effi­cace de « vec­to­ri­sa­tion » consiste à consi­dé­rer les textes comme des ensembles de mots (« bag-of-words ») à uti­li­ser la fré­quence des mots dans les textes et dans le cor­pus. Ainsi:

  • si Tf est le nombre d’occurrences d’un mot dans un document
  • et si IdF est le nombre de docu­ments dans l’en­semble du cor­pus conte­nant ce mot
  • alors la valeur asso­ciée pour ce vec­teur mot à ce docu­ment sera une fonc­tion de de TfxIdF.

La dis­tance entre deux docu­ments se réduit à la dis­tance mathé­ma­tique des vec­teurs qui les repré­sentent. On peut ensuite uti­li­ser des algo­rithmes variés pour effec­tuer des regrou­pe­ments de docu­ments proches pour obte­nir notre clustering.

Les méthodes de vec­to­ri­sa­tion sont mul­tiples, elles peuvent par exemple uti­li­ser les plon­ge­ments lexi­caux (word-embed­dings) four­nis par les sys­tèmes d’appren­tis­sage pro­fond (deep-lear­ning) pour trans­for­mer un docu­ment en vec­teur numé­rique. D’autres méthodes de clus­te­ring, basées sur les pro­ba­bi­li­tés (comme LDA) four­nissent un clus­te­ring à par­tir de la séman­tique latente extraite des documents.

Par Alain Couillault
PhD Chargé de Mission Innovation APIL