Taxinomies : classer des termes et des concepts en NLP

La taxi­no­mie (ou taxo­no­mie selon l’u­sage le plus répan­du, mais décon­seillé par l’Académie des Sciences) est un modèle de repré­sen­ta­tion du lan­gage très utile en trai­te­ment auto­ma­tique des langues. Elle per­met de clas­ser et hié­rar­chi­ser des concepts. Les termes sont ain­si pla­cés dans dif­fé­rentes catégories.

La taxinomie, un système de représentation du langage en NLP

La taxi­no­mie est une manière effi­cace de clas­ser des termes et des concepts spé­ci­fiques à un domaine. Autre­fois asso­ciée uni­que­ment aux sciences de la vie, c’est aujourd’hui un outil indis­pen­sable de trai­te­ment auto­ma­tique des langues (NLP) pour modé­li­ser le lan­gage et hié­rar­chi­ser des concepts. Le thé­sau­rus et l’ontologie sont quant à eux des déri­vés de la taxo­no­mie, ils s’en dis­tinguent par leurs usages et leurs objec­tifs spécifiques.

La taxinomie, un modèle de classification hiérarchisé du langage

Classifier le vivant : à l’origine de la taxinomie

Taxi­no­mie, taxo­no­mie, taxéo­no­mie ou bien taxio­no­mie

Bien avant l’émergence du trai­te­ment auto­ma­tique des langues ou même du pre­mier Mini­tel, c’est au début du XIXè siècle, en 1813, que naît le terme de “taxo­no­mie”, sous la plume d’un bota­niste suisse, dans un ouvrage qui pré­sente sa théo­rie des clas­si­fi­ca­tions et les bases de la bota­nique phi­lo­so­phique. Il évoque aus­si la gra­phie taxéo­no­mie, plus com­plexe à pro­non­cer, mais c’est le terme taxi­no­mie qui sera pri­vi­lé­gié en 1864 dans les dic­tion­naires de réfé­rence de la langue fran­çaise, ain­si qu’au Cana­da. Aujourd’hui, on peut tout aus­si bien par­ler de taxi­no­mies que de taxo­no­mies, même si le pre­mier terme fait davan­tage réfé­rence aux ques­tions de clas­si­fi­ca­tion (du grec nómos qui signi­fie “loi, règle”) tan­dis que le second se rap­porte plu­tôt aux ques­tions de nomen­cla­ture (du grec óno­ma, “nom”). En zoo­lo­gie, les cher­cheurs uti­lisent quant à eux le terme taxio­no­mie pour nom­mer les dif­fé­rentes espèces d’animaux.

La taxi­no­mie trouve donc his­to­ri­que­ment sa place dans dif­fé­rents domaines liés aux sciences natu­relles (bota­nique, bio­lo­gie, zoo­lo­gie ou encore ento­mo­lo­gie – la science des insectes…) et sa gra­phie a subi de nom­breuses influences avant d’entrer dans le dic­tion­naire. Mal­gré tout, en 1957, l’Académie des sciences adopte défi­ni­ti­ve­ment le terme taxi­no­mie pour dési­gner la science des clas­si­fi­ca­tions.

A l’origine, cette branche des sciences de la vie consiste à clas­ser et nom­mer les êtres vivants en fonc­tion de leurs carac­té­ris­tiques bio­lo­giques. Voi­ci un exemple de clas­si­fi­ca­tion clas­sique des êtres vivants en fonc­tion de leurs res­sem­blances, selon une hié­rar­chie de groupes de plus en plus vastes : 

Figure 1 : Exemple de classification des êtres vivants, source : Wikipédia
Figure 1 : Exemple de clas­si­fi­ca­tion des êtres vivants, source : Wikipédia

Par exten­sion, c’est un sys­tème de repré­sen­ta­tion du lan­gage qui peut s’appliquer à d’autres domaines scien­ti­fiques pour clas­ser, orga­ni­ser et hié­rar­chi­ser des don­nées ou des concepts.

Aujourd’hui, on retrouve ce terme dans dif­fé­rents domaines. On parle par exemple de taxo­no­mie verte euro­péenne dans le cadre de la régle­men­ta­tion votée par la Com­mis­sion euro­péenne qui vise la neu­tra­li­té car­bone d’ici 2050 : il s’agit d’un sys­tème euro­péen de clas­si­fi­ca­tion des acti­vi­tés éco­no­miques dites “durables”, c’est-à-dire ayant un impact favo­rable sur l’environnement.

Définition en NLP

Tout comme en sciences natu­relles ou en éco­no­mie, une taxi­no­mie sert aus­si à orga­ni­ser des termes ou des concepts en trai­te­ment auto­ma­tique des langues (NLP) sur le prin­cipe de l’emboîtement ou des pou­pées russes.

Ima­gi­nez une série de boîtes dans les­quelles seraient ran­gés les concepts : par exemple, une boîte pour le concept Voi­tures, une autre pour le concept Camions, une autre pour Motos, etc. Toutes ces boîtes peuvent être ran­gées dans une boîte plus grande cor­res­pon­dant au concept Véhi­cules ter­restres à moteur, elle-même ran­gée dans une boîte encore plus grande qui se nom­me­rait Engins de dépla­ce­ment, à côté des boîtes Véhi­cules hip­po­mo­biles ou Aéro­nefs. Cela don­ne­rait approxi­ma­ti­ve­ment le sché­ma suivant :

Figure 2 : Schéma d'illustration de la notion d'emboîtement de concepts afin de définir l'utilité d'une taxinomie
Figure 2 : Sché­ma d’illus­tra­tion de la notion d’emboîtement de concepts

En lin­guis­tique, cette rela­tion de sub­somp­tion est appelée :

  • Hyper­ony­mie, pour la rela­tion entre les grandes boîtes et les plus petites,
  • Hypo­ny­mie, pour les rela­tions entre les petites boîtes et les plus grandes.

Chaque domaine a sa taxi­no­mie, c’est-à-dire ses propres “boîtes” (concepts) conte­nant ses propres termes et expres­sions spé­ci­fiques. Par exemple, le nom “dépôt” n’a pas la même signi­fi­ca­tion dans le domaine ban­caire et le domaine géo­lo­gique. De même, les acro­nymes peuvent avoir dif­fé­rents sens en fonc­tion du contexte dans lequel ils se trouvent.

Il faut donc consti­tuer une nou­velle taxo­no­mie pour chaque voca­bu­laire métier à analyser.

Applications en NLP

De nom­breuses appli­ca­tions, notam­ment des appli­ca­tions de trai­te­ment auto­ma­tique des langues, néces­sitent d’utiliser un réfé­ren­tiel, par exemple : une nomen­cla­ture des com­pé­tences pour la ges­tion de CV, un plan de clas­se­ment pour la fouille de texte ou un orga­ni­gramme pour orien­ter les demandes clients.

Ce réfé­ren­tiel peut être repré­sen­té via une taxi­no­mie, un plan de clas­se­ment, une onto­lo­gie, un thé­sau­rus ou tout autre modèle de repré­sen­ta­tion hié­rar­chi­sé. Cha­cun de ces modèles a des carac­té­ris­tiques différentes.

Il existe dif­fé­rents lan­gages de spé­ci­fi­ca­tion pour créer des sys­tèmes de repré­sen­ta­tion, par­mi les­quels on peut citer : RDF, OWL, ou encore SKOS. Ces lan­gages sont conçus pour se concen­trer sur la séman­tique, en repré­sen­tant géné­ra­le­ment les connais­sances sous la forme “sujet, pré­di­cat, objet”. Ils font abs­trac­tion de la struc­ture des données.

Le thésaurus : une taxonomie sans hiérarchie

Thésaurus : définition

Un thé­sau­rus est un mode de repré­sen­ta­tion des connais­sances uti­li­sé prin­ci­pa­le­ment pour l’indexa­tion docu­men­taire, et répond à des règles pré­cises. Un thé­sau­rus est construit sur deux grands types de rela­tions, des rela­tions ver­ti­cales et des rela­tions hori­zon­tales :

  • Ver­ti­ca­le­ment, c’est une rela­tion générique/spécifique. Cette rela­tion est plus large que la rela­tion hyperonymie/hyponymie uti­li­sée pour les taxi­no­mies. Elle inclut en effet d’autres rela­tions, comme la rela­tion entre une par­tie et son tout (aus­si appe­lée méro­ny­mie). Par exemple, un car­bu­ra­teur et une par­tie d’un moteur ther­mique, un Moteur ther­mique est une par­tie d’une Moto.
  • Hori­zon­ta­le­ment, c’est une rela­tion d’équivalence entre termes, assez large éga­le­ment, qui relie un concept à des termes asso­ciés, à des termes équi­va­lents voire à des syno­nymes.

On le voit, alors que les rela­tions ver­ti­cales décrivent des rela­tions entre concepts, les rela­tions hori­zon­tales s’établissent entre les termes uti­li­sés pour décrire ces concepts.

Voi­ci un exemple de thé­sau­rus appli­qué au sec­teur bancaire : 

Figure 3 : Exemple de thésaurus appliqué au domaine bancaire, source : semanticscholar.org
Figure 3 : Exemple de thé­sau­rus appli­qué au sec­teur ban­caire, source : semanticscholar.org

Thésaurus : un système de représentation normatif

Parce qu’il est uti­li­sé pour l’indexa­tion de docu­ments, un thé­sau­rus doit inclure des règles de bon usage afin qu’un même concept ne soit pas indexé par des termes dif­fé­rents. On trouve ain­si dans la struc­ture d’un thé­sau­rus une rela­tion Employé pour/Employer qui indique, lorsque les termes d’index sont proches, celui à employer pré­fé­ren­tiel­le­ment. Il est éga­le­ment pos­sible d’indiquer qu’un terme est à proscrire.

Thésaurus multilingue

Comme dit pré­cé­dem­ment, les rela­tions hié­rar­chiques d’un thé­sau­rus sont éta­blies entre concepts qui sont, par nature, indé­pen­dants de la langue, et peuvent être réa­li­sés dans dif­fé­rentes langues à des fins d’indexation multilingue.

Le thé­sau­rus de l’UNESCO est un bon exemple de thé­sau­rus mul­ti­lingue

Figure 4 : Recherche "informatique linguistique" dans le thésaurus de l'UNESCO, source : vocabularies.unesco.org
Figure 4 : Recherche « infor­ma­tique lin­guis­tique » dans le thé­sau­rus de l’U­NES­CO, source : vocabularies.unesco.org

Thésaurus à facettes

Un même ensemble de concepts peut être orga­ni­sé selon plu­sieurs points de vue dif­fé­rents. Par exemple, les Etudes de cas du trai­te­ment auto­ma­tique des langues (NLP) pré­sen­tées sur ce site sont orga­ni­sées selon plu­sieurs points de vue :

  • le type de docu­ments aux­quels elles s’appliquent,
  • le sec­teur d’activité de l’entreprise
  • le métier de l’utilisateur,
  • les modules lin­guis­tiques qu’elles mettent en œuvre. 

L’ontologie : une taxinomie enrichie

Ontologie : définition

Tout comme la taxo­no­mie, le terme onto­lo­gie est issu d’un domaine très éloi­gné de l’informatique. A l’origine, il désigne un domaine phi­lo­so­phique qui se consacre à l’étude de l’être. On le trouve néan­moins dans d’autres domaines, et notam­ment celui du web séman­tique. Dans l’usage, ce terme a aujourd’hui ten­dance à être uti­li­sé pour réfé­rer à tout mode d’organisation de concepts.

Le Web séman­tique peut être décrit comme une série de stan­dards per­met­tant aux ordi­na­teurs en réseau de com­mu­ni­quer entre eux. Cet ensemble de stan­dards est habi­tuel­le­ment décrit sous la forme d’un mille-feuille (layer cake en anglais) dont la couche du bas concerne la repré­sen­ta­tion des docu­ments, et la couche supé­rieure l’interface utilisateur.

Figure 5 : Schéma descriptif du web sémantique
Figure 5 : Sché­ma des­crip­tif de la toile sémantique

OWL (Web Onto­lo­gy Lan­guage) est le stan­dard du web séman­tique dédié à la des­crip­tion des ontologies.

Dans une onto­lo­gie, les concepts sont orga­ni­sés dans un graphe qui per­met de visua­li­ser les dif­fé­rentes rela­tions séman­tiques, comme dans l’exemple sui­vant, por­tant sur le sec­teur de la pro­duc­tion manufacturière :

Figure 6 : Exemple d’ontologie dans le domaine de la production manufacturière, source : Wikipédia
Figure 6 : Exemple d’ontologie dans le sec­teur de la pro­duc­tion manu­fac­tu­rière, source : Wikipédia

Il existe trois types d’ontologies selon un niveau décrois­sant d’abstraction : 

  • Les onto­lo­gies glo­bales : elles ont le plus haut niveau d’abstraction et de généralité,
  • Les onto­lo­gies de domaine : dédiées à une tâche spé­ci­fique, elles repré­sentent les concepts d’un domaine donné,
  • Les onto­lo­gies d’application : dédiées à un champ d’application pré­cis à l’intérieur d’un domaine. Exemple : une onto­lo­gie sur les spé­ci­fi­ca­tions d’une forêt en par­ti­cu­lier est plus pré­cise et spé­ci­fique qu’une onto­lo­gie géné­rale de domaine forestier.

Conclusion

Pui­sant leurs racines dans les sciences du vivant ou la phi­lo­so­phie, les taxi­no­mies et ses variantes, les thé­sau­rus et les onto­lo­gies, sont deve­nues des outils incon­tour­nables du trai­te­ment auto­ma­tique des langues pour repré­sen­ter le lan­gage de manière concep­tuelle, clas­ser et hié­rar­chi­ser des termes, ou encore visua­li­ser les rela­tions séman­tiques qui les relient entre eux. De nom­breuses solu­tions de NLP néces­sitent aujourd’hui la construc­tion d’un de ces modèles de repré­sen­ta­tion du lan­gage afin d’organiser les dif­fé­rents termes et expres­sions tech­niques de domaines spécifiques.

Par Alain Couillault
PhD Chargé de Mission Innovation APIL