Taxinomies : classer des termes et des concepts en NLP
Sommaire
La taxinomie (ou taxonomie selon l’usage le plus répandu, mais déconseillé par l’Académie des Sciences) est un modèle de représentation du langage très utile en traitement automatique des langues. Elle permet de classer et hiérarchiser des concepts. Les termes sont ainsi placés dans différentes catégories.
La taxinomie, un système de représentation du langage en NLP
La taxinomie est une manière efficace de classer des termes et des concepts spécifiques à un domaine. Autrefois associée uniquement aux sciences de la vie, c’est aujourd’hui un outil indispensable de traitement automatique des langues (NLP) pour modéliser le langage et hiérarchiser des concepts. Le thésaurus et l’ontologie sont quant à eux des dérivés de la taxonomie, ils s’en distinguent par leurs usages et leurs objectifs spécifiques.
La taxinomie, un modèle de classification hiérarchisé du langage
Classifier le vivant : à l’origine de la taxinomie
Taxinomie, taxonomie, taxéonomie ou bien taxionomie ?
Bien avant l’émergence du traitement automatique des langues ou même du premier Minitel, c’est au début du XIXè siècle, en 1813, que naît le terme de “taxonomie”, sous la plume d’un botaniste suisse, dans un ouvrage qui présente sa théorie des classifications et les bases de la botanique philosophique. Il évoque aussi la graphie taxéonomie, plus complexe à prononcer, mais c’est le terme taxinomie qui sera privilégié en 1864 dans les dictionnaires de référence de la langue française, ainsi qu’au Canada. Aujourd’hui, on peut tout aussi bien parler de taxinomies que de taxonomies, même si le premier terme fait davantage référence aux questions de classification (du grec nómos qui signifie “loi, règle”) tandis que le second se rapporte plutôt aux questions de nomenclature (du grec ónoma, “nom”). En zoologie, les chercheurs utilisent quant à eux le terme taxionomie pour nommer les différentes espèces d’animaux.
La taxinomie trouve donc historiquement sa place dans différents domaines liés aux sciences naturelles (botanique, biologie, zoologie ou encore entomologie – la science des insectes…) et sa graphie a subi de nombreuses influences avant d’entrer dans le dictionnaire. Malgré tout, en 1957, l’Académie des sciences adopte définitivement le terme taxinomie pour désigner la science des classifications.
A l’origine, cette branche des sciences de la vie consiste à classer et nommer les êtres vivants en fonction de leurs caractéristiques biologiques. Voici un exemple de classification classique des êtres vivants en fonction de leurs ressemblances, selon une hiérarchie de groupes de plus en plus vastes :
Par extension, c’est un système de représentation du langage qui peut s’appliquer à d’autres domaines scientifiques pour classer, organiser et hiérarchiser des données ou des concepts.
Aujourd’hui, on retrouve ce terme dans différents domaines. On parle par exemple de taxonomie verte européenne dans le cadre de la réglementation votée par la Commission européenne qui vise la neutralité carbone d’ici 2050 : il s’agit d’un système européen de classification des activités économiques dites “durables”, c’est-à-dire ayant un impact favorable sur l’environnement.
Définition en NLP
Tout comme en sciences naturelles ou en économie, une taxinomie sert aussi à organiser des termes ou des concepts en traitement automatique des langues (NLP) sur le principe de l’emboîtement ou des poupées russes.
Imaginez une série de boîtes dans lesquelles seraient rangés les concepts : par exemple, une boîte pour le concept Voitures, une autre pour le concept Camions, une autre pour Motos, etc. Toutes ces boîtes peuvent être rangées dans une boîte plus grande correspondant au concept Véhicules terrestres à moteur, elle-même rangée dans une boîte encore plus grande qui se nommerait Engins de déplacement, à côté des boîtes Véhicules hippomobiles ou Aéronefs. Cela donnerait approximativement le schéma suivant :
En linguistique, cette relation de subsomption est appelée :
- Hyperonymie, pour la relation entre les grandes boîtes et les plus petites,
- Hyponymie, pour les relations entre les petites boîtes et les plus grandes.
Chaque domaine a sa taxinomie, c’est-à-dire ses propres “boîtes” (concepts) contenant ses propres termes et expressions spécifiques. Par exemple, le nom “dépôt” n’a pas la même signification dans le domaine bancaire et le domaine géologique. De même, les acronymes peuvent avoir différents sens en fonction du contexte dans lequel ils se trouvent.
Il faut donc constituer une nouvelle taxonomie pour chaque vocabulaire métier à analyser.
Applications en NLP
De nombreuses applications, notamment des applications de traitement automatique des langues, nécessitent d’utiliser un référentiel, par exemple : une nomenclature des compétences pour la gestion de CV, un plan de classement pour la fouille de texte ou un organigramme pour orienter les demandes clients.
Ce référentiel peut être représenté via une taxinomie, un plan de classement, une ontologie, un thésaurus ou tout autre modèle de représentation hiérarchisé. Chacun de ces modèles a des caractéristiques différentes.
Il existe différents langages de spécification pour créer des systèmes de représentation, parmi lesquels on peut citer : RDF, OWL, ou encore SKOS. Ces langages sont conçus pour se concentrer sur la sémantique, en représentant généralement les connaissances sous la forme “sujet, prédicat, objet”. Ils font abstraction de la structure des données.
Le thésaurus : une taxonomie sans hiérarchie
Thésaurus : définition
Un thésaurus est un mode de représentation des connaissances utilisé principalement pour l’indexation documentaire, et répond à des règles précises. Un thésaurus est construit sur deux grands types de relations, des relations verticales et des relations horizontales :
- Verticalement, c’est une relation générique/spécifique. Cette relation est plus large que la relation hyperonymie/hyponymie utilisée pour les taxinomies. Elle inclut en effet d’autres relations, comme la relation entre une partie et son tout (aussi appelée méronymie). Par exemple, un carburateur et une partie d’un moteur thermique, un Moteur thermique est une partie d’une Moto.
- Horizontalement, c’est une relation d’équivalence entre termes, assez large également, qui relie un concept à des termes associés, à des termes équivalents voire à des synonymes.
On le voit, alors que les relations verticales décrivent des relations entre concepts, les relations horizontales s’établissent entre les termes utilisés pour décrire ces concepts.
Voici un exemple de thésaurus appliqué au secteur bancaire :
Thésaurus : un système de représentation normatif
Parce qu’il est utilisé pour l’indexation de documents, un thésaurus doit inclure des règles de bon usage afin qu’un même concept ne soit pas indexé par des termes différents. On trouve ainsi dans la structure d’un thésaurus une relation Employé pour/Employer qui indique, lorsque les termes d’index sont proches, celui à employer préférentiellement. Il est également possible d’indiquer qu’un terme est à proscrire.
Thésaurus multilingue
Comme dit précédemment, les relations hiérarchiques d’un thésaurus sont établies entre concepts qui sont, par nature, indépendants de la langue, et peuvent être réalisés dans différentes langues à des fins d’indexation multilingue.
Le thésaurus de l’UNESCO est un bon exemple de thésaurus multilingue :
Thésaurus à facettes
Un même ensemble de concepts peut être organisé selon plusieurs points de vue différents. Par exemple, les Etudes de cas du traitement automatique des langues (NLP) présentées sur ce site sont organisées selon plusieurs points de vue :
- le type de documents auxquels elles s’appliquent,
- le secteur d’activité de l’entreprise
- le métier de l’utilisateur,
- les modules linguistiques qu’elles mettent en œuvre.
L’ontologie : une taxinomie enrichie
Ontologie : définition
Tout comme la taxonomie, le terme ontologie est issu d’un domaine très éloigné de l’informatique. A l’origine, il désigne un domaine philosophique qui se consacre à l’étude de l’être. On le trouve néanmoins dans d’autres domaines, et notamment celui du web sémantique. Dans l’usage, ce terme a aujourd’hui tendance à être utilisé pour référer à tout mode d’organisation de concepts.
Le Web sémantique peut être décrit comme une série de standards permettant aux ordinateurs en réseau de communiquer entre eux. Cet ensemble de standards est habituellement décrit sous la forme d’un mille-feuille (layer cake en anglais) dont la couche du bas concerne la représentation des documents, et la couche supérieure l’interface utilisateur.
OWL (Web Ontology Language) est le standard du web sémantique dédié à la description des ontologies.
Dans une ontologie, les concepts sont organisés dans un graphe qui permet de visualiser les différentes relations sémantiques, comme dans l’exemple suivant, portant sur le secteur de la production manufacturière :
Il existe trois types d’ontologies selon un niveau décroissant d’abstraction :
- Les ontologies globales : elles ont le plus haut niveau d’abstraction et de généralité,
- Les ontologies de domaine : dédiées à une tâche spécifique, elles représentent les concepts d’un domaine donné,
- Les ontologies d’application : dédiées à un champ d’application précis à l’intérieur d’un domaine. Exemple : une ontologie sur les spécifications d’une forêt en particulier est plus précise et spécifique qu’une ontologie générale de domaine forestier.
Conclusion
Puisant leurs racines dans les sciences du vivant ou la philosophie, les taxinomies et ses variantes, les thésaurus et les ontologies, sont devenues des outils incontournables du traitement automatique des langues pour représenter le langage de manière conceptuelle, classer et hiérarchiser des termes, ou encore visualiser les relations sémantiques qui les relient entre eux. De nombreuses solutions de NLP nécessitent aujourd’hui la construction d’un de ces modèles de représentation du langage afin d’organiser les différents termes et expressions techniques de domaines spécifiques.