Qu'est-ce qu'un gestionnaire de taxinomies ?
Sommaire
A quoi sert une taxinomie ?
De nombreuses applications, notamment des applications de traitement automatique des langues, nécessitent d’utiliser un référentiel. Par exemple une nomenclature des compétences pour la gestion de CV, un plan de classement pour la fouille de texte ou un organigramme pour orienter les demandes clients.
Ce référentiel peut être représenté via une taxinomie, un plan de classement, une ontologie, un thésaurus ou tout modèle de représentation hiérarchisé. Chacun de ces modèles a des caractéristiques différentes.
Qu’est-ce qu’une taxinomie ?
Une taxinomie organise les termes ou les concepts sur le principe de l’emboîtement. Imaginez une série de boîtes dans lesquelles seraient rangés les concepts, par exemple une boîte pour le concept Voiture, une autre pour le concept Camion une autre pour Motos et ainsi de suite. Toutes ces boîtes peuvent être rangées dans une boîte plus grande correspondant au concept Véhicule terrestre à moteur, elle-même rangée dans une boîte plus grande Engin de déplacement à coté des boîtes Véhicules hippomobiles ou Aéronefs.
Cette relation d’emboîtement est appelée savamment :
- Hyperonymie pour la relation entre les grandes boîtes et les plus petites,
- Hyponymie pour les relations entre les petites boîtes et les plus grandes.
Qu’est-ce qu’un thésaurus ?
Un thésaurus est un mode de représentation des connaissances utilisé principalement pour l’indexation documentaire, et répond à des règles précises. Un thésaurus est construit sur deux grands types de relations, des relations verticales, des relations horizontales :
- Verticalement, une relation Générique/spécifique. Cette relation est plus large que la relation hyperonymie/hyponymie utilisée pour les taxinomies. Elle inclut en effet d’autres relations, comme la relation entre une partie et son tout (on dit aussi méronymie). Par exemple, un Carburateur et une partie d’un moteur thermique, un Moteur thermique est une partie d’une Moto .
- Horizontalement, une relation d’équivalence entre termes, assez large également, qui relie un concept à des termes associés, à des termes équivalents voire à des synonymes.
On le voit, alors que les relations verticales décrivent des relations entre concepts, les relations horizontales s’établissent entre les termes utilisés pour décrire ces concepts.
Le caractère normatif d’un thésaurus
Parce qu’il est utilisé pour l’indexation de documents, un thésaurus doit inclure des règles de bon usage afin qu’un même concept ne soit pas indexé par des termes différents. On trouve ainsi dans la structure d’un thésaurus une relation Employé pour/Employer qui indique, lorsque les termes d’index sont proches, celui à employer préférentiellement. Il est également possible d’indiquer qu’un terme est à proscrire.
Qu’est-ce qu’un thésaurus multilingue ?
Comme on a vu, les relations hiérarchiques d’un thésaurus sont établies entre concepts qui sont, par nature, indépendants de la langue, et peuvent être réalisés dans différentes langues à des fins d’indexation multilingue. Le thésaurus de l’UNESCO est un bon exemple de thésaurus multilingue.
Qu’est-ce qu’un thésaurus à facettes ?
Un même ensemble de concepts concepts peut être organisé selon plusieurs points de vues différents. Par exemple, les Etudes de cas du traitement automatique des langues présentées sur ce site sur organisées selon plusieurs points de vue : le type de documents auxquels elles s’appliquent, le domaine d’activité de l’entreprise, le métier de l’utilisateur et les modules linguistiques qu’elles mettent en œuvre.
Qu’est-ce qu’une ontologie ?
Une ontologie est un terme qui vient de la philosophie et qui a été utilisé dans le domaine du web sémantique. Dans l’usage, ce terme a aujourd’hui tendance à être utilisé pour référer à tout mode d’organisation de concepts.
Le Web sémantique peut être décrit comme une série de standard permettant aux ordinateurs en réseau de communiquer entre eux. Cet ensemble de standards est habituellement décrit sous la forme d’un mille feuille (layer cake en anglais) dont la couche du bas concerne la représentation des documents, et la couche supérieure l’interface utilisateur.
OWL (Web Ontology Language) est le standard du web sémantique dédié à la description des ontologies.
Études de cas associés
CTO d'une société de fournitures électriques pour professionnels, mon service gère la plate-forme B2B et le SRI (Système de Recherche d'Information) derrière le formulaire de recherche produits. Or aujourd'hui, lorsque un client cherche des dominos par exemple, il ne trouve pas les barrettes de connexion. L'indexation des fiches produits et le traitement des requêtes s'appuient pourtant sur un référentiel. Il a été élaboré au fil de l'eau à partir du plan de classement du site et nous ne parvenons pas à le maintenir ou à l'étendre. Comment réorganiser cette ressource rapidement pour améliorer notre fonctionnalité de recherche et l'expérience utilisateurs ?
Je suis responsable du service client de mon entreprise. Mon équipe et moi devons traiter quotidiennement un volume important de demandes clients dans un environnement multicanal, avec une réactivité optimale.
Directeur de publication dans un groupe de presse, je suis responsable de la visibilité de mon journal dans l'espace numérique. Nos titres sont présents sur de nombreux réseaux sociaux et des blogs, où les publications sont ouvertes aux commentaires du public. La modération de ces pages est une responsabilité pour notre publication, une nécessité pour son image et une charge pour les équipes en charge de l'animation numérique. De plus, il est nécessaire de s'assurer que la modération des propos déposés par les internautes soit en ligne avec la Charte de bonnes pratiques de la publication. L'intelligence artificielle et les technologies du langage naturel peuvent-elles préparer, faciliter et accélérer la modération ?
Je suis décideur dans un institut d'études marketing et de sondage d'opinion. Je souhaite lancer des enquêtes incluant des questions ouvertes pour leur richesse. Mais comment dépouiller toutes ces contributions en texte libre ?
Je dispose de contenus précieux reflétant l’expérience, la satisfaction, les attentes de mes clients. Mais autant les contenus en texte libre sont riches, autant ils sont complexes à exploiter. L'analyse linguistique peut-elle m'apporter une aide ?
Je suis responsable de la pharmacovigilance au sein d'une structure publique de veille sanitaire. Je souhaite pouvoir exploiter plus largement les sources d'information sur les effets des traitements et garantir une certaine objectivité des analyses à partir des textes libres : l'analyse linguistique automatisée répond-elle à ces objectifs et comment ?
Responsable de la commercialisation de plusieurs titres de presse, je dois acquérir ou fidéliser mes abonnés en ligne en leur proposant l’actualité cruciale, voire critique dans leur activité, parmi des masses d’informations quotidiennes. Les mêmes outils de veille constituent un support précieux pour les journalistes de mes publications, à partir de sources externes.
Je suis chef de produit dans une entreprise industrielle multinationale et dans un domaine de haute technicité, où l'accès aux notices de maintenance est critique par ses enjeux financiers, environnementaux, ses risques associés en termes de sécurité ou d'image. Comment s'assurer que les équipes de production ou de maintenance trouvent immédiatement la réponse adéquate dans leur langue au sein de la documentation technique des installations et des outils ?