Résumer des réunions automatiquement

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Résumer des réunions automatiquement

Je suis chef de projet dans un grand groupe fournisseur d’énergie. J’anime régulièrement des réunions qui sont enregistrées. Une personne est ensuite en charge de rédiger un compte-rendu de la réunion mais le travail peut s’avérer chronophage. En considérant que j’ai besoin que les différents interlocuteurs de la réunion soient identifiés dans le compte-rendu et que nous utilisons beaucoup de jargon métier, quel outil peut être mis en place pour alléger ce travail ?

La solution

Un outil de transcription automatique et génération de résumé automatique adapté à ces contraintes

Mettre en place un outil capable de retranscrire la réunion dans un premier temps à partir de l’enregistrement en identifiant les différents locuteurs et en prenant en compte le vocabulaire spécifique, puis d’en générer un résumé / compte-rendu.

En réponse à ce besoin, l’idée est de mettre en place un outil qui va fournir un compte-rendu depuis l'enregistrement de la réunion.  La solution à ce besoin est divisée en deux étapes principales :

  1. la transcription écrite depuis la bande sonore de l'enregistrement dans un premier temps,
  2. le résumé de la transcription dans un second temps.

Ainsi, la personne en charge de la rédaction du compte-rendu de la réunion n'aura plus qu'à intervenir sur la vérification des extrants de l'outil.

Transcrire automatiquement la parole dans un environnement multilocuteur

La reconnaissance vocale est une technologie du TAL permettant d’identifier la parole humaine et de retranscrire le son identifié en texte. Cette technologie est inconsciemment sollicitée au quotidien par le grand public, notamment dans les sous-titres et les assistants vocaux.

Le fonctionnement global de cette technologique consiste à transformer le signal audio en phonèmes (unités sonores) grâce à ses caractéristiques dans un premier temps, puis les phonèmes en mots une fois qu'ils sont recollés. Une fois les mots identifiés, ils peuvent être retranscris et le son transformé en texte.

Initialement, cette tâche était effectuée par des modèles acoustiques statistiques (ASR), tels que les réseaux cachés de Markov (HMM), qui exploitaient les statistiques pour prédire les séquences de phonèmes. Aujourd'hui, ils sont plutôt remplacés par les réseaux de neurones, qui apprennent les correspondances entre caractéristiques du son et phonèmes. Les réseaux de neurones sont préférés car considérés "tout-terrain" et ils sont performants sur tous types d'environnements sonores, contrairement aux HMM.

Ces systèmes peuvent être paramétrés de sorte à identifier les différents locuteurs de l'échange. L'identification des locuteurs, appelée diarisation des locuteurs, est réalisée grâce à l'analyse des caractéristiques du son qui permet de :

  1. segmenter les tours de parole, et ainsi définir le début et la fin du tour de parole d'un locuteur.
  2. Attribuer un tour de parole à un locuteur, en attribuant une étiquette unique à chaque locuteur pour l'ensemble de la transcription automatique.

Lors de la retranscription automatique, chaque locuteur se verra assigné une étiquette, par exemple "locuteur 1", et la personne en charge du compte-rendu pourra ensuite nommer les locuteurs lors de la correction manuelle.

Prendre en compte le jargon / vocabulaire métier

Dans certaines entreprises, les professionnels ont recours à un vocabulaire très spécifique en fonction du secteur d'activité. Il est même possible que d'un domaine à l'autre, un même mot aie une définition complètement différente. C'est pourquoi, selon la situation de l'utilisateur final, il peut être important d'inclure un module au système qui permet de prendre en considération le vocabulaire spécifique (communément appelé jargon ou vocabulaire métier). Ce module peut consister en une ontologie afin que l'outil soit en mesure de traiter le vocabulaire spécifique. En TAL, une ontologie est une structure qui s'apparente à un dictionnaire et qui permet de répertorier des mots, concepts, acronymes, en les définissant et en les hiérarchisant selon leurs relations sémantiques. Il existe d'autres structures pour répertorier les concepts, tels que des taxinomies ou thésaurus.

Corriger manuellement la transcription

Une fois la transcription de l’enregistrement générée par le système, il est impératif de la corriger manuellement. Il est nécessaire de relire la transcription en même temps d'écouter l'enregistrement et vérifier que le discours est bien retranscrit, et que les interlocuteurs ont bien été identifiés. En effet, les systèmes ne sont pas parfaits sur la tâche de transcription de la parole lorsqu’il s'agit d'un discours spontanée, comme c’est le cas en réunion. Il se peut que la partie de présentation de la réunion soit parfaitement retranscrite, mais la partie discussion est susceptible de comporter d'importantes erreurs. Lors d'une discussion, ou plus globalement d'un discours spontané, les locuteurs peuvent se couper la parole, émettre des disfluences verbales (bégaiements et répétitions involontaires, « euh»…). Ces phénomènes vont "bruiter" la transcription et potentiellement la fausser. L'enjeu d'avoir une transcription « propre » et donc fiable est conséquent car c'est depuis cette transcription que l'outil va résumer la réunion et en générer un compte-rendu. Par conséquent, si la transcription n'est pas fiable et faussée, le compte-rendu final le sera également.

Résumer automatiquement

Extraire les mots-clés et Générer le résumé

Le résumé automatique de texte est désormais une technologie mature et les systèmes sont performants.
Il existe deux types de résumés automatiques : le résumé par extraction, et le résumé par abstraction. Pour la tâche de résumer une réunion, l'extraction est la méthode la plus adaptée. Elle consiste à identifier les passages les plus importants du texte, et à les concaténer afin d'obtenir un résumé fluide et qui rend fidèlement compte de la réunion.

L'identification des passages clés du texte s'appelle l'extraction de mots-clés. Cette tâche peut être effectuée par l'analyse de la fréquence d'apparition d'un terme, méthode considérée comme pas assez sophistiquée pour se suffire à elle-même, ou par un système entraîné sur cette tâche. Les modèles de langue sont les systèmes typiquement utilisés sur l'extraction de mots-clés.

L'importance de l'analyse du discours : Traitement des reprises anaphoriques

Pour générer le résumé automatiquement, les systèmes les plus adoptés et adaptés à cette tâche sont les LLM (Large Language Models). Ces modèles sont efficaces car capables de réaliser des analyses sémantique (du sens) et syntaxique (de la structure) du texte, enjeux majeurs pour la compréhension d’un discours. Par exemple, les reprises anaphoriques omniprésentes dans le discours humain peuvent être captées par ces systèmes.

La reprise anaphorique est un phénomène linguistique signifiant qu’un terme, le « référent », est repris plus tard dans le discours sous une autre appellation.

  • Par exemple : "J'ai acheté une nouvelle voiture hier, elle est au contrôle technique en ce moment."
  • Dans cette phrase, le référent "une nouvelle voiture" est repris plus tard par le pronom "elle".

Détecter toutes les apparitions d'un terme permet de mieux mesurer son importance et de centraliser toutes les informations concernant ce terme de part et d'autre du texte.

Spécifier l'importance du discours par le locuteur ?

Imaginons une situation où l'importance d'une information dépend de la personne l'ayant formulé (de par son statut par exemple) ; il est possible de paramétrer l’extraction des mots-clés de sorte à systématiquement considérer le discours de cette personne comme un passage important de la réunion. Ainsi, même si la personne n'a pas beaucoup parlé, en terme de quantité, ou que le système d'extraction de mots-clés n'aurait initialement pas considéré ses prises de parole, son discours sera automatiquement considéré comme important.

Vérifier le compte-rendu de la réunion

Le résumé généré par l’outil ne nécessite pas une correction minutieuse comme la transcription ; les systèmes sont beaucoup plus performants et avancés sur cette tâche. Si la transcription sur laquelle est fondée le résumé est fiable, le résumé doit théoriquement être à son image. Toutefois, la personne en charge du compte-rendu pourra vérifier que l’outil a bien pointé les éléments les plus importants de la réunion.

Points d'attention

Les ontologies nécessitent l’intervention des experts métiers

Les différentes méthodes et algorithmes mentionnés ci-dessus peuvent être développés et mis en place par des ingénieurs TAL / NLP, mais une étape va nécessiter l’intervention des experts métiers : la création d’ontologies (dictionnaires). En effet, si le choix est fait d’inclure des ontologies dans l'outil, il est nécessaire que des experts du métier / secteur travaillent en collaboration avec les ingénieurs TAL sur les termes, acronymes, leurs définitions et les liens (relations sémantiques, par exemple : synonymes) entre les différents termes.

RGPD & Données sensibles

Le traitement des données collectées, notamment l'enregistrement de la réunion et des voix, doit être conforme aux normes RGPD. La mise en place de l'outil doit également prendre en considération le traitement de données / informations sensibles qui pourraient être partagées lors des réunions. L'outil devrait dans ce cas être internalisé afin que les données "ne sortent pas de l'entreprise".

Par Wissam Kerkri
Ingénieure TAL/NLP Engineer