Le besoin
La solution
Ils peuvent vous aider

Le besoin

Construire un glossaire métier pour améliorer l'organisation interne de l'entreprise

Je suis consultant fonctionnel dans une compagnie qui propose des solutions de paiement à diverses entreprises. Mon rôle est d'élaborer avec mon équipe des stratégies pour améliorer notre relation avec nos clients. De plus, nous collaborons avec les différents services de notre entreprise et mettons en place des solutions pour optimiser le processus de travail des employés. Il est alors important que nos solutions permettent de fludifier la communication entre les services qui travaillent sur les mêmes projets, tout en ayant des approches différentes sur la résolution des besoins.

La communication en entreprise implique l'usage d'un discours qui peut être plus ou moins spécialisé. D'une part, chaque domaine a un technolecte, c'est-à-dire qu'il a un vocabulaire spécifique qui lui permet de définir des notions qui lui sont propres. D'autre part, il existe des expressions qui ont un certain sens dans le langage courant mais ont une signification plus stricte dans le monde de la finance ou dans d'autres disciplines. Enfin, les entreprises ont aussi un vocabulaire particulier dans la mesure où un terme peut avoir un léger changement de sens d'une compagnie à l'autre. Ainsi, la terminologie d'une entreprise est très variable, selon le secteur, et elle peut plus ou moins s'éloigner du langage courant.

Dans la mesure où des employés de différents services collaborent dans différents projets, il est alors crucial que la communication soit claire et sans ambiguïté, indépendamment des connaissances personnelles de chacun. Ainsi, nous avons décidé de constituer un glossaire métier afin d'expliciter la terminologie de l'entreprise.

Un glossaire métier est un document qui permet de définir les différents termes employés en entreprise. Il assure une compréhension commune des termes et offre un gain de temps en définissant à travers une seule ressource les informations qui doivent être comprises de la même manière par tous les employés. L'existence d'un glossaire métier évite aussi des erreurs dues à des incompréhensions et assure la rédaction de documents précis. De plus, il facilite l'intégration des nouveaux employés qui auront à leur disposition un support structuré pour comprendre rapidement la terminologie de l'entreprise.

Cependant, élaborer un glossaire métier est une tâche chronophage car les termes employés en entreprise sont nombreux et les identifier nécessite la présence de nombreux experts de différents services, pour une durée relativement longue. En outre, cette méthode qui se base uniquement sur l'expertise humaine n'assure pas pour autant une énumération exhaustive des termes car l'oubli de certains termes est possible. Pour pallier à ce problème et amoindrir l'intervention humaine, nous avons souhaité automatiser la constitution du glossaire métier en ayant recours aux ressources électroniques à notre disposition. En effet, les documents de l'entreprise sont représentatifs des termes utilisés par les employés et leur analyse automatique est un moyen efficace de les collecter. Ces fichiers proviennent de plusieurs services et peuvent prendre la forme de cahier de charges, de documentation technique, de contrats, etc. Ils sont partagés au sein d'un SharePoint qui centralise tous les documents de l'entreprise.

La solution

Extraire automatiquement la terminologie d'un domaine

Détection de mots clés

À partir des documents électroniques de l'entreprise, la terminologie peut être extraite à partir de la recherche de mots-clés.

TF-IDF, l'approche statistique

Plusieurs méthodes peuvent être employées pour détecter les mots-clés d'un document, dont la mesure TF-IDF. Il s'agit d'une méthode statistique qui consiste à donner plus d'importance aux termes qui apparaissent le moins dans un document ou un corpus. En effet, cet algorithme va considérer que contrairement aux termes rares, ceux qui sont les plus communs comme les mots-outils ne sont pas représentatifs d'un texte. Ainsi, cette méthode permet d'extraire les mots les plus caractéristiques d'un document.

L'approche par modèle de langue

Il est aussi possible de détecter les mots-clés d'un texte à l'aide des modèles de langage tels que BERT. Ces modèles ont l'avantage d'être performants dans de nombreuses tâches de traitement automatique de la langue et leur pré-entraînement sur des corpus de grande taille leur permet de construire une représentation vectorielle des contextes possibles d'un mot. Cette prise en compte du contexte apporte ainsi une précision sémantique qui permet d'affiner la recherche de mots-clés au sein d'un texte. À ce titre, BERT est un modèle qui intègre diverses solutions d'analyse de texte et il comporte aussi des variantes qui se spécialisent dans la détection de mots-clés.

Approche par règles

En dehors des approches statistiques telles que TF-IDF ou les modèles de langage, l'utilisation de méthodes à base de règles peut aider à l'extraction de mots-clés. En effet, la détection de syntagmes nominaux est un moyen pour identifier les mots qui composent une terminologie dans un document. Les syntagmes nominaux sont des groupes de mots dont la tête est un nom, c'est par exemple le cas du syntagme "bon de commande" où le nom "bon" est la tête du groupe nominal. Les syntagmes nominaux peuvent être détectés grâce à un étiquetage morpho-syntaxique qui consiste à indiquer la nature grammaticale de chaque mot ou d'un groupe de noms d'un texte.

Structuration et enrichissement du glossaire

Division en catégories

La détection de mots-clés permet d'avoir un ensemble de termes candidats à partir desquels les termes qui vont composer le glossaire métier sont choisis. Afin d'optimiser l'organisation du glossaire métier et de faciliter sa lecture, les différents termes peuvent être regroupés dans des catégories. De même que le clustering de documents, il est possible de créer des clusters de termes en s'appuyant sur leur plongement lexical. Grâce à des modèles de plongements pré-entraînés, chaque terme peut être représenté sous forme de vecteur et des calculs peuvent alors être effectués pour rassembler les termes les plus proches. Ces regroupements de termes peuvent aider à mettre en évidence des catégories dans la terminologie de l'entreprise.

Extraction de définitions

Par ailleurs, comme chaque terme requiert une définition, une ressource pouvant être employée pour compléter le glossaire est l'utilisation de Wikidata qui est un graphe de connaissances appartenant au domaine public. Il recense plus de 97 millions d'entités sur divers sujets et ces entités peuvent comporter une définition. Par exemple, le terme "spécification" est défini au sein de Wikidata comme un "standard technique, ensemble d'éléments explicitement requis par un matériel, design, produit ou service pour satisfaire le standard". Grâce à cette base de connaissances, les définitions du glossaire métier peuvent être partiellement complétées et les experts ont alors pour tâche de modifier les définitions existantes le cas échéant et de compléter les définitions manquantes.

Points d'attention

  • Après la constitution de catégories de mots-clés, il pourrait être intéressant de représenter ces informations sous forme d'une ontologie. En plus de mettre en avant la définition d'un terme et sa catégorie, une ontologie est un bon moyen de représenter les relations sémantiques entre les différents termes de l'entreprise.
  • Un glossaire métier est une ressource qui doit être souvent mise à jour. Avec l'apparition de nouveaux concepts et de technologies, certains termes voient le jour et doivent aussi y être consignés. Il est important alors de simplifier l'ajout de nouveaux termes et de leur définition en associant le glossaire à une interface facile d'utilisation.
Par Fatou Sow