Améliorer un moteur de recherche grâce au thésaurus documentaire

Le besoin

Améliorer l'indexation automatique de documents pour un moteur de recherche grâce à un thésaurus

Je suis responsable du service documentation d’un centre de documentation d'une entreprise dans le secteur de l'aéronautique et une de mes principales missions est la gestion de la structure documentaire en assurant son fonctionnement et l’organisation des ressources, le tout numériquement. Cela se traduit notamment par la gestion d’un moteur de recherche.

Aujourd'hui, chaque document est indexé manuellement par des mots-clés (métadonnées) avec lesquels les requêtes des utilisateurs sont comparées pour retourner les résultats les plus pertinents. Si l’utilisateur saisit la requête “Saussure”, les premières ressources retournées seront les documents écrits par Ferdinand de Saussure, puis les ressources qui possèdent son nom dans son titre, et enfin les ressources qui mentionnent ce nom dans leur contenu. Cependant, cet algorithme a ses limites car il utilise des mots-clés et non un système de synonymie ou de relations sémantiques entre la requête et les ressources. Deux requêtes sémantiquement synonymes renvoient donc des documents différents au lieu du même ensemble de documents pertinents.

Disposer d'un thésaurus permet par ailleurs de désambiguïser un terme et donc ne retourner que les documents pertinents lorsque la requête contient des termes et métadonnées homonymes.

Par exemple, pour la requête "Les pages au Moyen-Âge", le mot "page" peut signifier à la fois la fonction de valet et les feuillets d'un ouvrage. Par conséquent, les résultats retournés seront principalement les documents ayant le mot "page" dans leurs métadonnées, quel que soit le sens du mot. Cependant, étant donné que dans un thésaurus les mots sont liés entre eux par des relations sémantiques, "page" et "Moyen-Âge" peuvent avoir un lien pour la définition de "page" en tant que valet, mais pas pour celle de "page" en tant que "feuillet". Avec un tel thésaurus, ce ne seront que les documents en relation directe avec le mot "page" en tant que "valet" qui seront retournés à la suite de cette requête.

Je souhaite donc utiliser un thésaurus documentaire afin d’organiser les documents et les ressources du centre de documentation de telle sorte que le moteur de recherche devienne plus performant et propose des résultats plus pertinents aux utilisateurs, en employant des relations sémantiques entre ces documents pour faciliter la recherche. Pour cela, je souhaite tout d'abord construire un thésaurus spécifique à mon domaine d'activité. Le traitement automatique des langues apporte-t-il des solutions ?

La solution

L’élaboration d’un thésaurus par extraction terminologique pour une indexation automatique de documents

La construction d'un thésaurus nécessite plusieurs étapes :

il s'agit dans un premier temps d’identifier le vocabulaire du domaine (ici l’ensemble des ressources du centre de documentation),
il faut ensuite organiser les termes du vocabulaire en un réseau de relations sémantiques.

Motivation de l’indexation de données par extraction terminologique

L’indexation automatique de données et de ressources permet d’organiser un ensemble de documents afin de faciliter une recherche de contenu dans cet ensemble. Au lieu que cette organisation se fasse autour de métadonnées classiques comme le titre d’un document, son auteur ou sa date de parution, celle-ci utilise un vocabulaire contrôlé d’indexation ordonné dans un thésaurus documentaire. Dans un tel thésaurus, les documents sont classés de façon cohérente non seulement à travers des termes d’indexation mais aussi leurs relations. Ces relations sont multiples et peuvent être par exemple de synonymie pour les termes équivalents, de hiérarchie pour les termes plus génériques ou spécifiques ou encore d’association pour les termes souvent associés entre eux.

Par exemple, pour un document du type “Manuel scolaire Mathématique 5e”, son indexation peut être de la forme :

titre : “Manuel scolaire Mathématique 5e”,
auteur : “Jean Dupont”,
maison d’édition : “Hachette”,
date de parution : 01/01/2022,
thèmes principaux : “scolaire”, “5e”, “mathématiques”, “calcul”, “nombre”

Et chaque thème principal a sa propre entrée dans le thésaurus à l’aide des descripteurs suivants :

terme : “mathématiques”,
termes synonymiques : “maths”, “mathématique”,
terme générique : “matière”,
termes spécifiques : “algèbre”, “analyse”, “théorie des nombres”,
termes associés : “calcul”, “nombre”, “statistique”, “géométrie”.

Ainsi, lors d’une requête d’un utilisateur, le mot “statistique” est donné, le document “Manuel scolaire Mathématiques 5e” sera présenté parmi les documents-candidats les plus pertinents étant donné la relation sémantique d’association entre la requête et un des thèmes principaux du document. En effet, la construction du thésaurus par indexation de données se concentre davantage sur le contenu du document que sur les métadonnées. Les thèmes principaux de chaque document peuvent être déterminés grâce à une extraction terminologique effectuée sur chaque document.

Un tel thésaurus est indispensable dans ce cas de figure, tant pour son utilité dans la conception d’une base de données bibliographique que dans la recherche documentaire. Les métadonnées utilisées et la liste des descripteurs dépendent de la finalité du thésaurus, et leur choix doit se montrer pertinent pour augmenter l’efficacité de l’indexation.

Identification du vocabulaire

Pour indexer un document et le résumer en quelques mots, il faut analyser son vocabulaire, c’est-à-dire créer une liste de termes qui décrivent le mieux possible le document. C’est le principe d’un vocabulaire contrôlé qui, en sélectionnant un nombre précis de mots apparaissant le plus souvent dans un document, établit la liste des mots les plus fréquents dans le texte à laquelle on a enlevé les mots fonctionnels tels que “et”, “un”, “il”, etc. De plus, le vocabulaire contrôlé permet d’associer un terme à un concept précis, limitant ainsi les problèmes de polysémie ou d’homographie. Ce vocabulaire contrôlé sera utilisé pour les termes qui seront sélectionnés dans les descripteurs et les relations lors de l’élaboration du thésaurus.

L’élaboration du thésaurus pour l’indexation automatique des documents

L’élaboration des thésaurus est soumise à des normes de conception portant sur la façon d’écrire les mots (au maximum au singulier par exemple) mais surtout sur les éléments que chaque entrée doit avoir à sa disposition pour le bon fonctionnement du thésaurus, notamment par rapport au relation entre les mots.

Ces éléments sont :

Les descripteurs, aussi appelés termes acceptés, sont uniques pour chaque entrée ou document. C’est le terme le plus généralement utilisé pour désigner cette entrée.
Les non-descripteurs, aussi appelés termes rejetés, peuvent être multiples pour chaque entrée ou document. Ce sont des termes moins utilisés mais néanmoins connus par la plupart des utilisateurs comme les abréviations et les synonymes. Les non-descripteurs permettent à un moteur de recherche de repérer les entrées quelle que soit la forme utilisée dans la requête, que ce soit la forme abrégée, développée, familière, etc.
Les relations hiérarchiques permettent de situer l’entrée entre un descripteur spécifique (donc plus précis que l’entrée elle-même) et un descripteur générique (plus large que l’entrée elle-même).
Les relations associatives permettent de situer l’entrée par rapport à d’autres entrées dont le concept est proche selon les relations suivantes : cause à effet, partie et tout, agent et patient, matériau et produit, etc.
Des notes d’application et définitions dans le cas où il est nécessaire de préciser certaines informations notamment sur l’utilisation du descripteur ou d’en préciser le sens.

Des abréviations sont utilisées pour apporter une indication supplémentaire aux différentes entrées de ces éléments et sont les suivantes :

EM : Employer,
EP : Employé Pour,
TG : Terme Générique,
TS : Terme Spécifique,
TA : Terme Associé,
NA : Note d’Application,
DF : Définition.

Voici un exemple d’entrée qu’on pourrait retrouver dans un thésaurus documentaire :

Descripteur : “Code civil”
Non-descripteurs : “Code juridique”, “CC”, “C. Civ.”, “Code Napoléon”
Terme générique : “Droit”
Termes spécifiques : “Droit des obligations”, “Droit des biens”, “Droit des personnes”, “Statut juridique”, “Contrat”
Définition : “Texte regroupant les lois du droit civil français.”

Dans un tel thésaurus, toutes les entrées ayant des descripteurs, non-descripteurs et termes en commun sont des documents ayant un lien entre eux.

Utilisation du thésaurus pour la recherche documentaire

Une fois le thésaurus élaboré et tous les documents indexés à l’intérieur, la recherche documentaire s’effectue grâce aux descripteurs et non descripteurs utilisés pour décrire chaque document. Ainsi, les métadonnées telles que le titre ou l’auteur ne sont plus pertinentes pour répondre à une requête, et c’est le contenu du document qui prime. Dans une requête contenant les mots “code Napoléon”, tous les documents indexés dans le thésaurus à l’aide des descripteurs et non-descripteurs “code Napoléon” vont être présélectionnés. Par rapport à une comparaison avec les métadonnées, la recherche par thésaurus est plus efficace, est un gain de temps, et retourne des documents plus pertinents par rapport à la requête.

Améliorer un moteur de recherche grâce au thésaurus documentaire

Le besoin

Améliorer l'indexation automatique de documents pour un moteur de recherche grâce à un thésaurus

La solution

L’élaboration d’un thésaurus par extraction terminologique pour une indexation automatique de documents

Motivation de l’indexation de données par extraction terminologique

Identification du vocabulaire

L’élaboration du thésaurus pour l’indexation automatique des documents

Utilisation du thésaurus pour la recherche documentaire

Points d'attention

Le TAL pour la révision des normes d’écriture de documents techniques

Étude de marché automatisée : une force de travail Multi-Agents pour l’analyse des tendances

Génération de données synthétiques : produire des commentaires de réseaux sociaux pour mieux préparer une campagne marketing grâce à l’ingénierie de prompt