Qu'est-ce qu'un gestionnaire de taxinomies ?

A quoi sert une taxinomie ?

De nom­breuses appli­ca­tions, notam­ment des appli­ca­tions de trai­te­ment auto­ma­tique des langues, néces­sitent d’u­ti­li­ser un réfé­ren­tiel. Par exemple une nomen­cla­ture des com­pé­tences pour la ges­tion de CV, un plan de clas­se­ment pour la fouille de texte ou un orga­ni­gramme pour orien­ter les demandes clients.

Ce réfé­ren­tiel peut être repré­sen­té via une taxi­no­mie, un plan de clas­se­ment, une onto­lo­gie, un thé­sau­rus ou tout modèle de repré­sen­ta­tion hié­rar­chi­sé. Cha­cun de ces modèles a des carac­té­ris­tiques différentes. 

Qu’est-ce qu’une taxinomie ?

Une taxi­no­mie orga­nise les termes ou les concepts sur le prin­cipe de l’emboîtement. Ima­gi­nez une série de boîtes dans les­quelles seraient ran­gés les concepts, par exemple une boîte pour le concept Voi­ture, une autre pour le concept Camion une autre pour Motos et ain­si de suite. Toutes ces boîtes peuvent être ran­gées dans une boîte plus grande cor­res­pon­dant au concept Véhi­cule ter­restre à moteur, elle-même ran­gée dans une boîte plus grande Engin de dépla­ce­ment à coté des boîtes Véhi­cules hip­po­mo­biles ou Aéro­nefs.

Cette rela­tion d’emboîtement est appe­lée savamment :

  • Hyper­ony­mie pour la rela­tion entre les grandes boîtes et les plus petites, 
  • Hypo­ny­mie pour les rela­tions entre les petites boîtes et les plus grandes.

Qu’est-ce qu’un thésaurus ?

Un thé­sau­rus est un mode de repré­sen­ta­tion des connais­sances uti­li­sé prin­ci­pa­le­ment pour l’in­dexa­tion docu­men­taire, et répond à des règles pré­cises. Un thé­sau­rus est construit sur deux grands types de rela­tions, des rela­tions ver­ti­cales, des rela­tions hori­zon­tales :

  • Ver­ti­ca­le­ment, une rela­tion Générique/spécifique. Cette rela­tion est plus large que la rela­tion hyperonymie/hyponymie uti­li­sée pour les taxi­no­mies. Elle inclut en effet d’autres rela­tions, comme la rela­tion entre une par­tie et son tout (on dit aus­si méro­ny­mie). Par exemple, un Car­bu­ra­teur et une par­tie d’un moteur ther­mique, un Moteur ther­mique est une par­tie d’une Moto .
  • Hori­zon­ta­le­ment, une rela­tion d’é­qui­va­lence entre termes, assez large éga­le­ment, qui relie un concept à des termes asso­ciés, à des termes équi­va­lents voire à des syno­nymes.

On le voit, alors que les rela­tions ver­ti­cales décrivent des rela­tions entre concepts, les rela­tions hori­zon­tales s’é­ta­blissent entre les termes uti­li­sés pour décrire ces concepts.

Le caractère normatif d’un thésaurus

Parce qu’il est uti­li­sé pour l’indexa­tion de docu­ments, un thé­sau­rus doit inclure des règles de bon usage afin qu’un même concept ne soit pas indexé par des termes dif­fé­rents. On trouve ain­si dans la struc­ture d’un thé­sau­rus une rela­tion Employé pour/Employer qui indique, lorsque les termes d’in­dex sont proches, celui à employer pré­fé­ren­tiel­le­ment. Il est éga­le­ment pos­sible d’in­di­quer qu’un terme est à proscrire.

Qu’est-ce qu’un thésaurus multilingue ?

Comme on a vu, les rela­tions hié­rar­chiques d’un thé­sau­rus sont éta­blies entre concepts qui sont, par nature, indé­pen­dants de la langue, et peuvent être réa­li­sés dans dif­fé­rentes langues à des fins d’in­dexa­tion mul­ti­lingue. Le thé­sau­rus de l’U­NES­CO est un bon exemple de thé­sau­rus mul­ti­lingue.

Qu’est-ce qu’un thésaurus à facettes ?

Un même ensemble de concepts concepts peut être orga­ni­sé selon plu­sieurs points de vues dif­fé­rents. Par exemple, les Etudes de cas du trai­te­ment auto­ma­tique des langues pré­sen­tées sur ce site sur orga­ni­sées selon plu­sieurs points de vue : le type de docu­ments aux­quels elles s’ap­pliquent, le domaine d’ac­ti­vi­té de l’en­tre­prise, le métier de l’u­ti­li­sa­teur et les modules lin­guis­tiques qu’elles mettent en œuvre. 

Qu’est-ce qu’une ontologie ?

Une onto­lo­gie est un terme qui vient de la phi­lo­so­phie et qui a été uti­li­sé dans le domaine du web séman­tique. Dans l’u­sage, ce terme a aujourd’­hui ten­dance à être uti­li­sé pour réfé­rer à tout mode d’or­ga­ni­sa­tion de concepts.

Le Web séman­tique peut être décrit comme une série de stan­dard per­met­tant aux ordi­na­teurs en réseau de com­mu­ni­quer entre eux. Cet ensemble de stan­dards est habi­tuel­le­ment décrit sous la forme d’un mille feuille (layer cake en anglais) dont la couche du bas concerne la repré­sen­ta­tion des docu­ments, et la couche supé­rieure l’in­ter­face utilisateur.

OWL (Web Onto­lo­gy Lan­guage) est le stan­dard du web séman­tique dédié à la des­crip­tion des ontologies. 

Par Alain Couillault
PhD Chargé de Mission Innovation APIL

Études de cas associés

Comment améliorer la recherche sur mon site de vente en ligne ?

CTO d'une société de fournitures électriques pour professionnels, mon service gère la plate-forme B2B et le SRI (Système de Recherche d'Information) derrière le formulaire de recherche produits. Or aujourd'hui, lorsque un client cherche des dominos par exemple, il ne trouve pas les barrettes de connexion. L'indexation des fiches produits et le traitement des requêtes s'appuient pourtant sur un référentiel. Il a été élaboré au fil de l'eau à partir du plan de classement du site et nous ne parvenons pas à le maintenir ou à l'étendre. Comment réorganiser cette ressource rapidement pour améliorer notre fonctionnalité de recherche et l'expérience utilisateurs ?

La relation client multicanale : comment équilibrer le service entre coût et opportunités ?

Je suis responsable du service client de mon entreprise. Mon équipe et moi devons traiter quotidiennement un volume important de demandes clients dans un environnement multicanal, avec une réactivité optimale.

Modérer mes médias sociaux : peut-on alléger et fiabiliser la tâche ?

Directeur de publication dans un groupe de presse, je suis responsable de la visibilité de mon journal dans l'espace numérique. Nos titres sont présents sur de nombreux réseaux sociaux et des blogs, où les publications sont ouvertes aux commentaires du public. La modération de ces pages est une responsabilité pour notre publication, une nécessité pour son image et une charge pour les équipes en charge de l'animation numérique. De plus, il est nécessaire de s'assurer que la modération des propos déposés par les internautes soit en ligne avec la Charte de bonnes pratiques de la publication. L'intelligence artificielle et les technologies du langage naturel peuvent-elles préparer, faciliter et accélérer la modération ?

Quantifier des opinions dans des réponses libres : un défi

Je suis décideur dans un institut d'études marketing et de sondage d'opinion. Je souhaite lancer des enquêtes incluant des questions ouvertes pour leur richesse. Mais comment dépouiller toutes ces contributions en texte libre ?

Les avis clients en texte libre : une mine de pépites, mais comment les extraire et les mesurer ?

Je dispose de contenus précieux reflétant l’expérience, la satisfaction, les attentes de mes clients. Mais autant les contenus en texte libre sont riches, autant ils sont complexes à exploiter. L'analyse linguistique peut-elle m'apporter une aide ?

Repérer et quantifier les effets des traitements ainsi que leur contexte d'apparition

Je suis responsable de la pharmacovigilance au sein d'une structure publique de veille sanitaire. Je souhaite pouvoir exploiter plus largement les sources d'information sur les effets des traitements et garantir une certaine objectivité des analyses à partir des textes libres : l'analyse linguistique automatisée répond-elle à ces objectifs et comment ?

Pousser au client l'information qu'il ne cherche pas encore

Responsable de la commercialisation de plusieurs titres de presse, je dois acquérir ou fidéliser mes abonnés en ligne en leur proposant l’actualité cruciale, voire critique dans leur activité, parmi des masses d’informations quotidiennes. Les mêmes outils de veille constituent un support précieux pour les journalistes de mes publications, à partir de sources externes.

Mettre à disposition immédiatement les réponses adéquates dans une documentation technique multilingue

Je suis chef de produit dans une entreprise industrielle multinationale et dans un domaine de haute technicité, où l'accès aux notices de maintenance est critique par ses enjeux financiers, environnementaux, ses risques associés en termes de sécurité ou d'image. Comment s'assurer que les équipes de production ou de maintenance trouvent immédiatement la réponse adéquate dans leur langue au sein de la documentation technique des installations et des outils ?