La reconnaissance de la parole pour transcrire des conférences de vulgarisation scientifique
|
|
Le besoin
Transcription de conférences de vulgarisation scientifique
Je suis programmatrice et animatrice de conférences au sein d’un centre de culture scientifique. J’organise régulièrement des conférences au cours desquelles des chercheurs et des chercheurses évoluant dans différentes disciplines viennent partager leur savoir avec le grand public.
Les conférences suivent à peu près le même déroulé : une présentation de l’intervenant suivie d’un bref échange introductif, l’exposé proprement dit et finalement la session de questions/réponses avec le public présent. Nous disposons d’une centaine d’enregistrements audio de conférences d’1h45mn en moyenne, et je reçois un nouvel intervenant chaque semaine.
Je souhaite transcrire les interventions pour les diffuser par écrit sur le blog du centre de culture scientifique. Afin de servir au mieux notre mission de vulgarisation, un soin particulier doit être apporté à la fluidité du texte transcrit. En effet, la parole spontanée est différente de l’écrit. Elle comporte des hésitations, des reprises et autres phrases interrompues dont la transcription gênerait la lecture.
Il faut de plus prendre en compte les interactions entre interlocuteurs, notamment pendant la session de questions/réponses, lesquelles peuvent donner lieu à des chevauchements de la parole. Il est important d’assurer une bonne intelligibilité des échanges dans le texte transcrit.
La solution
De la parole spontanée à l’écrit fluide
Que signifie transcrire la parole ?
La transcription de la parole est le processus de conversion d’un enregistrement audio de la parole en un texte écrit. Il existe plusieurs types de transcription :
- La transcription intégrale : le contenu du fichier audio est retranscrit mot à mot en incluant les hésitations, les phrases inachevées, les répétitions et en signalant tous les marqueurs non verbaux du langage parlé (rires, silences, etc.).
- La transcription éditée : les disfluences verbales sont supprimées et des reformulations peuvent être effectuées pour adapter le texte au style écrit, de sorte à le rendre plus naturel à la lecture.
- Le compte-rendu intégral : la transcription ne retient que les éléments essentiels du texte, tout en respectant le séquencement du discours.
Audiotypiste ou transcription automatique
La transcription peut être réalisée par un audiotypiste ou alors au moyen d’un outil de transcription automatique. Que choisir ? D’une part, la vitesse de saisie au clavier du professionnel culmine à environ 70 mots par minute. D’autre part, un locuteur peut aller jusqu’à 200 mots par minute à l’oral. Ainsi, il faudrait à un transcripteur professionnel un minimum de trois heures pour mettre par écrit un enregistrement audio d’une heure.
A cette estimation brute, il faut ajouter une charge de travail supplémentaire liée à divers facteurs tels que les dialogues croisés, les besoins de reformulations si l’audiotypiste réalise une transcription éditée, auquel cas des recherches liées au thème du discours à transcrire peuvent s’avérer nécessaires.
De ce fait, la transcription manuelle de plusieurs centaines d’heures d’enregistrement représente un coût en main-d’œuvre considérable, et peut-être rédhibitoire, contrairement à la transcription automatique de la parole qui passe mieux à échelle.
Transcription automatique de la parole
La transcription automatique repose sur la reconnaissance automatique de la parole (RAP).
Elle est utilisée dans la vie quotidienne à travers les assistants vocaux des téléphones ou autres objets connectés. Elle trouve également des applications croissantes dans le monde professionnel comme par exemple la dictée vocale et le contrôle de conformité du discours de vente. Elle permet de réaliser une transcription intégrale de l’audio.
Systèmes basés sur les modèles de Markov cachés
Les systèmes de RAP sont le plus souvent basés sur les modèles de Markov cachés (HMM). Ces derniers estiment la probabilité d’observer un signal acoustique sachant le phonème prononcé. Les modèles acoustiques des mots sont obtenus en “emboîtant” des HMM modélisant les phonèmes qui les constituent, ce qui suppose la construction préalable d’un lexique phonétisé.
Grâce aux modèles acoustiques, ces systèmes peuvent évaluer, pour chaque mot du vocabulaire, la probabilité du prononcé sur un segment audio donné.
Cette identification phonétique des mots est insuffisante pour reconstruire une phrase syntaxiquement et sémantiquement correcte à cause de l’homophonie : des mots différents peuvent se prononcer de la même manière. C’est pour cela que ces systèmes utilisent en plus un modèle de langue, probabiliste ou à base de grammaire, pour estimer la séquence de mots la plus vraisemblable, étant donnés les mots candidats fournis par le modèle acoustique.
Les systèmes de RAP utilisant les HMM ont toutefois une architecture relativement complexe. En effet, la réalisation acoustique d’un phonème dépend fortement des phonèmes qui précèdent et suivent immédiatement. C’est le phénomène de co-articulation qu'il faut prendre en compte afin d’améliorer la précision du modèle acoustique. Ainsi, un HMM doit idéalement modéliser non pas un seul phonème, mais une succession de deux ou trois phonèmes (diphones et triphones respectivement), ce qui augmente considérablement le nombre de HMM à apprendre lorsque le vocabulaire est de grande taille.
De plus, cette approche nécessite une connaissance phonétique de la langue. En particulier, les mots prononcés présentent de nombreuses variantes (dues notamment à l’hypoarticulation) que l’on pourrait difficilement représenter de manière exhaustive dans un lexique phonétisé. Cela limite relativement le pouvoir de généralisation des systèmes de RAP utilisant les HMM, qui restent suffisamment performants pour les applications de commandes vocales sur smartphones et ordinateurs par exemple.
Systèmes basés sur les modèles “de bout en bout”
Les modèles dits “de bout en bout” permettent d’aller au-delà des limitations des systèmes de RAP basés sur les HMM. Il s’agit de réseaux de neurones profonds qui prennent comme entrée un signal audio et renvoient en sortie une séquence de probabilités de mots.
Ils se composent généralement d’un encodeur et d’un décodeur. L’encodeur produit une nouvelle représentation du signal audio, qui n’est pas affectée par les variations non pertinentes pour l’identification des mots, telles que les changements de pitch, de prosodie ou encore d’environnement acoustique. Le décodeur modélise les probabilités d’apparition des mots en utilisant un mécanisme dit d’attention pour sélectionner les parties de la séquence encodée les plus pertinentes pour prédire le prochain mot.
L’apprentissage permet ainsi au modèle de sélectionner les propriétés pertinentes à extraire du signal audio et d’exploiter les régularités de la langue, sans passer par une modélisation explicite des phonèmes.
Supprimer les disfluences d’une transcription brute de la parole
Pour la vulgarisation scientifique, le discours doit être transcrit dans un style fluide à la lecture. Ainsi, la transcription initiale, obtenue au moyen d’un modèle “de bout en bout”, produit un texte brut dont il faut supprimer les disfluences. Il résultera de ce post-traitement une transcription éditée.
Caractérisation des disfluences
Dans [TREE, 1995], les disfluences sont définies comme étant un phénomène qui interrompt le discours sans ajouter aucun contenu propositionnel.
Il est communément admis en traitement automatique des langues que les disfluences sont structurées [SHRIBERG, 1994]. Ainsi, un segment de discours disfluent peut être décrit par une séquence <A, RM, IM, RR, B> où :
- A et B sont des séquences de mots de part et d’autre de la disfluence,
- RM est une séquence de mots erronée appelée reparandum,
- RR est la séquence de mots rectifiée correspondant à RM, appelée la réparation dans la suite,
- IM appelé l’interregnum, marque l’arrêt du flux de parole par un silence ou des mots dédiés.
Par exemple, dans la phrase “Le principe d’incertitude, pardon, d’indétermination de Heisenberg est énoncé la première fois en 1927.”, les segments “Le principe” et “de Heisenberg est énoncé la première fois en 1927” correspondent aux éléments A et B. “d’incertitude” est le reparandum, “pardon” est l’interregnum et “d’indétermination” est la réparation. Il apparaît qu’en supprimant le reparandum et l’interregnum, la phrase résultante est fluide à la lecture.
Par ailleurs, les disfluences sont généralement catégorisées en trois grandes familles qui sont les pauses, les répétitions et les révisions.
- Les pauses se manifestent par des silences, des mots de remplissage ou des marqueurs de difficulté illocutoire tels que “euh”, “comment dirais-je”, “vous voyez” etc.
- Les révisions sont des interruptions par lesquelles le locuteur signale et corrige une erreur syntaxique ou sémantique. Les faux-départs, dans lesquels la phrase amorcée est abandonnée pour une nouvelle, peuvent être inclus dans cette catégorie.
Les disfluences jouent un rôle important dans la communication verbale. Cependant, transcrites dans un texte, elles en alourdissent la lecture, d’où la nécessité de les détecter et les supprimer.
Méthode de détection automatique des disfluences
Classification des mots
Une approche simple pour identifier les disfluences consiste à apprendre un modèle de classification des mots en deux classes “fluent/disfluent”. Plusieurs familles de modèles peuvent être exploitées pour ce faire, notamment les HMM, et les modèles séquentiels tels que les réseaux de neurones récurrents ou encore les transformers.
Analyse syntaxique
Pour identifier des structures disfluentes plus complexes telles que les faux-départs, la méthode précédente est insuffisante. Par exemple, dans la transcription suivante :
- “Et ce qu’on voit, c’est que… et ça a été d’ailleurs l’une des grandes déceptions de Michel Serres… Lui il était très enthousiaste, il pensait vraiment qu’on allait avoir une grande encyclopédie portative[...]”,
le modèle de détection de disfluences doit pouvoir identifier le segment de phrase en gras comme étant inachevé et à supprimer, ce qui n’est possible qu’en considérant la structure de la phrase dans sa globalité. La structure syntaxique d’une phrase peut précisément être représentée par son arbre syntaxique. Il est possible de construire un arbre syntaxique au moyen d'analyseur syntaxique, qui exploite des règles grammaticales fournies de manière explicite. Cela peut aussi être réalisé au moyen d’un modèle statistique. A partir d’un jeu de données comportant des phrases associées à leurs arbres syntaxiques, le modèle est entraîné à identifier les constituants syntaxiques de chacune des phrases et à leur affecter la bonne catégorie morphosyntaxique (nom, verbe, proposition nominale, etc.). Il est ainsi possible d’obtenir un analyseur syntaxique, sans disposer de règles grammaticales explicites, et en tirant partie de la capacité des modèles neuronaux séquentiels à représenter, sous forme vectorielle, les dépendances contextuelles entre mots dans une phrase. Il suffit alors d’ajouter aux catégories morphosyntaxiques standards celles qui sont spécifiques aux disfluences pour obtenir un analyseur syntaxique capable de détecter des disfluences à structure complexe.
La traduction automatique pour repérer les disfluences
La classification de mots et l’analyse syntaxique permettent l’identification et la suppression des mots ou segments de phrases disfluents et présupposent des structures de disfluences qui sont exploitées explicitement dans l’apprentissage des modèles.
Une autre façon de procéder consiste à formuler la question d’élimination des disfluences comme une tâche de traduction “texte disfluent” vers “texte fluide” et à adapter pour ce faire les modèles existant de traduction automatique. L’apprentissage s’appuie ainsi sur deux corpus de textes fluides d’une part et disfluents d’autre part et n’utilise pas d’a priori explicite sur la structure des disfluences. Ainsi, les modèles obtenus peuvent avoir un meilleur pouvoir de généralisation, en d’autres termes, une meilleure capacité à supprimer des disfluences complexes présentant une structure absente des données utilisées pour l'entraînement. Toutefois, cette identification implicite des disfluences rend plus difficile l’interprétation et l’évaluation des performances de tels modèles. Par ailleurs, il arrive que les modèles de langage de grande taille produisent des traductions pathologiques qui peuvent être, soit grammaticalement incorrectes, soit sémantiquement éloignées de la séquence de mots à traduire. Ce phénomène, souvent appelé “hallucination”, est à garder à l’esprit lors de la mise en œuvre de ce type de modèle.
Changement et identification de locuteur
Chaque conférence comprend des séquences interactives entre le conférencier ou la conférencière, la personne animant la conférence, et/ou le public présent, et il faudrait pouvoir préciser l'intervenant pour chaque phrase transcrite, afin d’améliorer la lisibilité des textes transcrits. Il est donc nécessaire de procéder à une segmentation de la parole en locuteurs.
Segmentation et regroupement des locuteurs basés sur l’audio
La segmentation en locuteurs est le processus de partitionnement d’un enregistrement audio en segments dans lesquelles un seul locuteur parle. Elle est complétée par le regroupement de locuteurs qui consiste à identifier les segments dans lesquels le même locuteur s’exprime, ce qui permet de suivre plus aisément le développement d’un dialogue transcrit.
La segmentation en locuteurs repose comme pour la reconnaissance automatique de la parole sur une vectorisation de trames audios de courtes durées, qui extrait de celles-ci, des paramètres acoustiques. Cette vectorisation peut se faire au moyen de descripteurs des propriétés fréquentielles du son historiquement utilisés en traitement du signal audio, tels que les coefficients MFC. Les descripteurs peuvent aussi être une représentation apprise à l’aide d'un réseau de neurones profond.
Dans tous les cas, l’enregistrement audio est mis sous la forme d’une séquence de vecteurs qui capturent les propriétés pertinentes pour la différenciation des locuteurs. La segmentation peut alors se faire par recherche de points de rupture : pour chaque point d’une sous-séquence contenant de la parole, un test statistique permet de décider si les vecteurs observés sont caractéristiques d’un locuteur unique ou s’il y a plus vraisemblablement deux locuteurs différents de part et d’autre du point de rupture considéré dans la sous-séquence.
Cette approche présente l’inconvénient que les séquences de part et d’autre des points de rupture testés ont en général des longueurs variables ce qui réduit la fiabilité du test statistique lorsque le déséquilibre est important. Une alternative consiste à rechercher des segments de longueur fixe, suffisamment courts pour ne pas contenir de dialogues croisés mais suffisamment longs pour permettre de différencier les locuteurs. Les segments sont alors groupés dans des clusters correspondant chacun à un locuteur différent.
Apport des données textuelles à la segmentation en locuteurs
Il est possible d’exploiter des motifs linguistiques dans le texte transcrit pour améliorer la segmentation en locuteurs. Par exemple, une segmentation qui placerait un point de rupture au milieu d’un mot serait nécessairement erronée, chose vérifiable grâce à la synchronisation temporelle entre transcription et enregistrement audio.
Dans le cas de conférences scientifiques, les locuteurs ont différents rôles, à savoir “animateur.rice”, “intervenant.e” et “public”. Cette donnée peut être exploitée pour la segmentation en entraînant un modèle de langue à identifier le rôle de chaque locuteur à partir de son expression. Cela suppose la disponibilité de corpus de textes dédiés par “rôle” pour entraîner un tel modèle. De manière plus générique, les descripteurs et modèles construits dans le domaine de la stylométrie (par ex. Cafiero, F., & Camps, J. B.,2019) peuvent être exploités pour la segmentation en locuteurs, et en particulier l’identification de l’intervenant principal, qui a un temps de parole plus long.
En outre, l’information lexicale peut être exploitée pour la segmentation au moyen d’un modèle entraîné sur des corpus conversationnels à assigner, à chaque mot, un locuteur.
Les méthodes de segmentation basées sur l’audio et le texte, combinées, permettent d’obtenir une segmentation en locuteurs plus robuste.
Points d'attention
Différentes méthodes de traitement automatique des langues, d’apprentissage automatique en général et de traitement du signal permettent d’obtenir des transcriptions fluides de conférences. Ces techniques permettent également d’identifier automatiquement le nombre de locuteurs et de savoir qui parle quand.
Les textes transcrits peuvent ensuite être exploités de différentes manières. Premièrement, il est possible d’en générer automatiquement des versions simplifiées ou résumées pour une diffusion et une accessibilité plus larges. De même, les méthodes de fouille de texte permettent d’identifier les sous-thèmes abordés dans les différentes conférences et leur représentativité, ce qui peut servir de support pour le bilan et l’élaboration de la feuille de route thématique du centre de culture scientifique. De plus, grâce à la synchronisation temporelle entre textes transcrits et enregistrements audio, il est possible en utilisant un module de recherche textuelle de retrouver des extraits de conférence traitant d’un sujet précis. Ces transcriptions permettront ainsi de faire de l’indexation audio.
Quelques verrous techniques à la transcription de la parole
Il est important de signaler deux verrous techniques dans la transcription automatique. D’une part, il reste difficile d’obtenir une transcription de qualité satisfaisante lorsque plusieurs locuteurs parlent simultanément. Il existe des méthodes de séparation de sources qui consistent à décomposer un signal audio contenant des voix superposées en plusieurs canaux contenant chacun la voix d’un seul locuteur. Elles peuvent constituer un prétraitement préalable à la transcription. Cependant cela constitue un sujet de recherche qui reste ouvert, notamment lorsqu’il n’y a qu’un enregistrement de la séquence à décomposer.
D’autre part, les modèles de transcription automatique sont entraînés à reconnaître un vocabulaire prédéfini qui peut ne pas contenir des termes savants, tels que “Streptococcus salivarius”. Une solution consiste alors à spécialiser les modèles de transcription automatique par grands champs de connaissances, en enrichissant leur vocabulaire.
Par exemple, pour la transcription d’exposés de biologie, il faudrait compléter les données d’entraînement du modèle de base par un jeu de données spécifique composé d’une taxonomie du domaine et des versions audio de chaque entrée de la taxonomie, obtenues par synthèse vocale.