Taxinomies : classer des termes et des concepts en NLP

Sommaire

La taxinomie (ou taxonomie selon l’usage le plus répandu, mais déconseillé par l’Académie des Sciences) est un modèle de représentation du langage très utile en traitement automatique des langues. Elle permet de classer et hiérarchiser des concepts. Les termes sont ainsi placés dans différentes catégories.

La taxinomie, un système de représentation du langage en NLP

La taxinomie est une manière efficace de classer des termes et des concepts spécifiques à un domaine. Autrefois associée uniquement aux sciences de la vie, c’est aujourd’hui un outil indispensable de traitement automatique des langues (NLP) pour modéliser le langage et hiérarchiser des concepts. Le thésaurus et l’ontologie sont quant à eux des dérivés de la taxonomie, ils s’en distinguent par leurs usages et leurs objectifs spécifiques.

La taxinomie, un modèle de classification hiérarchisé du langage

Classifier le vivant : à l’origine de la taxinomie

Taxinomie, taxonomie, taxéonomie ou bien taxionomie ?

Bien avant l’émergence du traitement automatique des langues ou même du premier Minitel, c’est au début du XIXè siècle, en 1813, que naît le terme de “taxonomie”, sous la plume d’un botaniste suisse, dans un ouvrage qui présente sa théorie des classifications et les bases de la botanique philosophique. Il évoque aussi la graphie taxéonomie, plus complexe à prononcer, mais c’est le terme taxinomie qui sera privilégié en 1864 dans les dictionnaires de référence de la langue française, ainsi qu’au Canada. Aujourd’hui, on peut tout aussi bien parler de taxinomies que de taxonomies, même si le premier terme fait davantage référence aux questions de classification (du grec nómos qui signifie “loi, règle”) tandis que le second se rapporte plutôt aux questions de nomenclature (du grec ónoma, “nom”). En zoologie, les chercheurs utilisent quant à eux le terme taxionomie pour nommer les différentes espèces d’animaux.

La taxinomie trouve donc historiquement sa place dans différents domaines liés aux sciences naturelles (botanique, biologie, zoologie ou encore entomologie – la science des insectes…) et sa graphie a subi de nombreuses influences avant d’entrer dans le dictionnaire. Malgré tout, en 1957, l’Académie des sciences adopte définitivement le terme taxinomie pour désigner la science des classifications.

A l’origine, cette branche des sciences de la vie consiste à classer et nommer les êtres vivants en fonction de leurs caractéristiques biologiques. Voici un exemple de classification classique des êtres vivants en fonction de leurs ressemblances, selon une hiérarchie de groupes de plus en plus vastes :

Figure 1 : Exemple de classification des êtres vivants, source : Wikipédia

Par extension, c’est un système de représentation du langage qui peut s’appliquer à d’autres domaines scientifiques pour classer, organiser et hiérarchiser des données ou des concepts.

Aujourd’hui, on retrouve ce terme dans différents domaines. On parle par exemple de taxonomie verte européenne dans le cadre de la réglementation votée par la Commission européenne qui vise la neutralité carbone d’ici 2050 : il s’agit d’un système européen de classification des activités économiques dites “durables”, c’est-à-dire ayant un impact favorable sur l’environnement.

Définition en NLP

Tout comme en sciences naturelles ou en économie, une taxinomie sert aussi à organiser des termes ou des concepts en traitement automatique des langues (NLP) sur le principe de l’emboîtement ou des poupées russes.

Imaginez une série de boîtes dans lesquelles seraient rangés les concepts : par exemple, une boîte pour le concept Voitures, une autre pour le concept Camions, une autre pour Motos, etc. Toutes ces boîtes peuvent être rangées dans une boîte plus grande correspondant au concept Véhicules terrestres à moteur, elle-même rangée dans une boîte encore plus grande qui se nommerait Engins de déplacement, à côté des boîtes Véhicules hippomobiles ou Aéronefs. Cela donnerait approximativement le schéma suivant :

Figure 2 : Schéma d'illustration de la notion d'emboîtement de concepts afin de définir l'utilité d'une taxinomie — Figure 2 : Schéma d’illustration de la notion d’emboîtement de concepts

En linguistique, cette relation de subsomption est appelée :

Hyperonymie, pour la relation entre les grandes boîtes et les plus petites,
Hyponymie, pour les relations entre les petites boîtes et les plus grandes.

Chaque domaine a sa taxinomie, c’est-à-dire ses propres “boîtes” (concepts) contenant ses propres termes et expressions spécifiques. Par exemple, le nom “dépôt” n’a pas la même signification dans le domaine bancaire et le domaine géologique. De même, les acronymes peuvent avoir différents sens en fonction du contexte dans lequel ils se trouvent.

Il faut donc constituer une nouvelle taxonomie pour chaque vocabulaire métier à analyser.

Applications en NLP

De nombreuses applications, notamment des applications de traitement automatique des langues, nécessitent d’utiliser un référentiel, par exemple : une nomenclature des compétences pour la gestion de CV, un plan de classement pour la fouille de texte ou un organigramme pour orienter les demandes clients.

Ce référentiel peut être représenté via une taxinomie, un plan de classement, une ontologie, un thésaurus ou tout autre modèle de représentation hiérarchisé. Chacun de ces modèles a des caractéristiques différentes.

Il existe différents langages de spécification pour créer des systèmes de représentation, parmi lesquels on peut citer : RDF, OWL, ou encore SKOS. Ces langages sont conçus pour se concentrer sur la sémantique, en représentant généralement les connaissances sous la forme “sujet, prédicat, objet”. Ils font abstraction de la structure des données.

Le thésaurus : une taxonomie sans hiérarchie

Thésaurus : définition

Un thésaurus est un mode de représentation des connaissances utilisé principalement pour l’indexation documentaire, et répond à des règles précises. Un thésaurus est construit sur deux grands types de relations, des relations verticales et des relations horizontales :

Verticalement, c’est une relation générique/spécifique. Cette relation est plus large que la relation hyperonymie/hyponymie utilisée pour les taxinomies. Elle inclut en effet d’autres relations, comme la relation entre une partie et son tout (aussi appelée méronymie). Par exemple, un carburateur et une partie d’un moteur thermique, un Moteur thermique est une partie d’une Moto.
Horizontalement, c’est une relation d’équivalence entre termes, assez large également, qui relie un concept à des termes associés, à des termes équivalents voire à des synonymes.

On le voit, alors que les relations verticales décrivent des relations entre concepts, les relations horizontales s’établissent entre les termes utilisés pour décrire ces concepts.

Voici un exemple de thésaurus appliqué au secteur bancaire :

Figure 3 : Exemple de thésaurus appliqué au domaine bancaire, source : semanticscholar.org — Figure 3 : Exemple de thésaurus appliqué au secteur bancaire, source : semanticscholar.org

Thésaurus : un système de représentation normatif

Parce qu’il est utilisé pour l’indexation de documents, un thésaurus doit inclure des règles de bon usage afin qu’un même concept ne soit pas indexé par des termes différents. On trouve ainsi dans la structure d’un thésaurus une relation Employé pour/Employer qui indique, lorsque les termes d’index sont proches, celui à employer préférentiellement. Il est également possible d’indiquer qu’un terme est à proscrire.

Thésaurus multilingue

Comme dit précédemment, les relations hiérarchiques d’un thésaurus sont établies entre concepts qui sont, par nature, indépendants de la langue, et peuvent être réalisés dans différentes langues à des fins d’indexation multilingue.

Le thésaurus de l’UNESCO est un bon exemple de thésaurus multilingue :

Figure 4 : Recherche "informatique linguistique" dans le thésaurus de l'UNESCO, source : vocabularies.unesco.org — Figure 4 : Recherche « informatique linguistique » dans le thésaurus de l’UNESCO, source : vocabularies.unesco.org

Thésaurus à facettes

Un même ensemble de concepts peut être organisé selon plusieurs points de vue différents. Par exemple, les Etudes de cas du traitement automatique des langues (NLP) présentées sur ce site sont organisées selon plusieurs points de vue :

le type de documents auxquels elles s’appliquent,
le secteur d’activité de l’entreprise
le métier de l’utilisateur,
les modules linguistiques qu’elles mettent en œuvre.

L’ontologie : une taxinomie enrichie

Ontologie : définition

Tout comme la taxonomie, le terme ontologie est issu d’un domaine très éloigné de l’informatique. A l’origine, il désigne un domaine philosophique qui se consacre à l’étude de l’être. On le trouve néanmoins dans d’autres domaines, et notamment celui du web sémantique. Dans l’usage, ce terme a aujourd’hui tendance à être utilisé pour référer à tout mode d’organisation de concepts.

Le Web sémantique peut être décrit comme une série de standards permettant aux ordinateurs en réseau de communiquer entre eux. Cet ensemble de standards est habituellement décrit sous la forme d’un mille-feuille (layer cake en anglais) dont la couche du bas concerne la représentation des documents, et la couche supérieure l’interface utilisateur.

Figure 5 : Schéma descriptif du web sémantique — Figure 5 : Schéma descriptif de la toile sémantique

OWL (Web Ontology Language) est le standard du web sémantique dédié à la description des ontologies.

Dans une ontologie, les concepts sont organisés dans un graphe qui permet de visualiser les différentes relations sémantiques, comme dans l’exemple suivant, portant sur le secteur de la production manufacturière :

Figure 6 : Exemple d’ontologie dans le domaine de la production manufacturière, source : Wikipédia — Figure 6 : Exemple d’ontologie dans le secteur de la production manufacturière, source : Wikipédia

Il existe trois types d’ontologies selon un niveau décroissant d’abstraction :

Les ontologies globales : elles ont le plus haut niveau d’abstraction et de généralité,
Les ontologies de domaine : dédiées à une tâche spécifique, elles représentent les concepts d’un domaine donné,
Les ontologies d’application : dédiées à un champ d’application précis à l’intérieur d’un domaine. Exemple : une ontologie sur les spécifications d’une forêt en particulier est plus précise et spécifique qu’une ontologie générale de domaine forestier.

Conclusion

Puisant leurs racines dans les sciences du vivant ou la philosophie, les taxinomies et ses variantes, les thésaurus et les ontologies, sont devenues des outils incontournables du traitement automatique des langues pour représenter le langage de manière conceptuelle, classer et hiérarchiser des termes, ou encore visualiser les relations sémantiques qui les relient entre eux. De nombreuses solutions de NLP nécessitent aujourd’hui la construction d’un de ces modèles de représentation du langage afin d’organiser les différents termes et expressions techniques de domaines spécifiques.

Par Alain Couillault

PhD Chargé de Mission Innovation APIL

Études de cas associés

Optimiser la recherche sur son site grâce à l’intelligence artificielle

Comment améliorer la recherche sur mon site de vente en ligne ?

CTO d'une société de fournitures électriques pour professionnels, mon service gère la plate-forme B2B et le SRI (Système de Recherche d'Information) derrière le formulaire de recherche produits. Or aujourd'hui, lorsque un client cherche des dominos par exemple, il ne trouve pas les barrettes de connexion. L'indexation des fiches produits et le traitement des requêtes s'appuient pourtant sur un référentiel. Il a été élaboré au fil de l'eau à partir du plan de classement du site et nous ne parvenons pas à le maintenir ou à l'étendre. Comment réorganiser cette ressource rapidement pour améliorer notre fonctionnalité de recherche et l'expérience utilisateurs ?

Découvrir

Orientation et diffusion d'information

Orienter les demandes clients

La relation client multicanale : comment équilibrer le service entre coût et opportunités ?

Je suis responsable du service client de mon entreprise. Mon équipe et moi devons traiter quotidiennement un volume important de demandes clients dans un environnement multicanal, avec une réactivité optimale.

Découvrir

Optimiser le travail de modération de mes médias sociaux

Modérer mes médias sociaux : peut-on alléger et fiabiliser la tâche ?

Directeur de publication dans un groupe de presse, je suis responsable de la visibilité de mon journal dans l'espace numérique. Nos titres sont présents sur de nombreux réseaux sociaux et des blogs, où les publications sont ouvertes aux commentaires du public. La modération de ces pages est une responsabilité pour notre publication, une nécessité pour son image et une charge pour les équipes en charge de l'animation numérique. De plus, il est nécessaire de s'assurer que la modération des propos déposés par les internautes soit en ligne avec la Charte de bonnes pratiques de la publication. L'intelligence artificielle et les technologies du langage naturel peuvent-elles préparer, faciliter et accélérer la modération ?

Découvrir

Analyse de contenu

Dépouiller les contributions à une enquête d’opinion

Quantifier des opinions dans des réponses libres : un défi

Je suis décideur dans un institut d'études marketing et de sondage d'opinion. Je souhaite lancer des enquêtes incluant des questions ouvertes pour leur richesse. Mais comment dépouiller toutes ces contributions en texte libre ?

Découvrir

Analyse de contenu

Analyser l’expérience de mes clients

Les avis clients en texte libre : une mine de pépites, mais comment les extraire et les mesurer ?

Je dispose de contenus précieux reflétant l’expérience, la satisfaction, les attentes de mes clients. Mais autant les contenus en texte libre sont riches, autant ils sont complexes à exploiter. L'analyse linguistique peut-elle m'apporter une aide ?

Découvrir

Analyse de contenu, Génération de contenu

Pharmacovigilance multilingue

Repérer et quantifier les effets des traitements ainsi que leur contexte d'apparition

Je suis responsable de la pharmacovigilance au sein d'une structure publique de veille sanitaire. Je souhaite pouvoir exploiter plus largement les sources d'information sur les effets des traitements et garantir une certaine objectivité des analyses à partir des textes libres : l'analyse linguistique automatisée répond-elle à ces objectifs et comment ?

Découvrir

Orientation et diffusion d'information

Offrir des outils de veille puissants à mes abonnés

Pousser au client l'information qu'il ne cherche pas encore

Responsable de la commercialisation de plusieurs titres de presse, je dois acquérir ou fidéliser mes abonnés en ligne en leur proposant l’actualité cruciale, voire critique dans leur activité, parmi des masses d’informations quotidiennes. Les mêmes outils de veille constituent un support précieux pour les journalistes de mes publications, à partir de sources externes.

Découvrir

Organisation d'information

Base de connaissances technique multilingue

Mettre à disposition immédiatement les réponses adéquates dans une documentation technique multilingue

Je suis chef de produit dans une entreprise industrielle multinationale et dans un domaine de haute technicité, où l'accès aux notices de maintenance est critique par ses enjeux financiers, environnementaux, ses risques associés en termes de sécurité ou d'image. Comment s'assurer que les équipes de production ou de maintenance trouvent immédiatement la réponse adéquate dans leur langue au sein de la documentation technique des installations et des outils ?

Découvrir