Reconnaissance automatique de la parole

La recon­nais­sance auto­ma­tique de la parole (Auto­ma­tic Speech Recog­ni­tion ou ASR en anglais) consiste à trans­for­mer la parole humaine en un texte, en recon­nais­sant les mots pro­non­cés. Ces tech­niques existent depuis long­temps (dès les années 1950) et se sont consi­dé­ra­ble­ment amé­lio­rées ces der­nières décen­nies avec l’ap­pa­ri­tion des assis­tants vocaux.

La recon­nais­sance auto­ma­tique de la parole recouvre for­mel­le­ment plus que la simple trans­crip­tion (speech to text ou STT en anglais) mais c’est dans ce domaine que les sys­tèmes sont les plus performants.

Comment transformer la voix en texte ?

Le domaine de la recon­nais­sance de la parole uti­lise depuis ses débuts des modèles par appren­tis­sage. Les réseaux de Mar­kov Cachés (Hid­den Mar­kov Models ou HMM en anglais) sont les outils les plus uti­li­sés, même si, comme par­tout en trai­te­ment de la langue, les réseaux de neu­rones bou­le­versent les tech­niques disponibles.

La méthode la plus fré­quem­ment uti­li­sée consiste, par appren­tis­sage, à trans­for­mer le signal en un ensemble de carac­té­ris­tiques uni­taires, au moyen d’ou­tils mathé­ma­tiques tels que les Trans­for­ma­tions de Fou­rier. L’en­traî­ne­ment consiste à faire apprendre à un modèle à trans­for­mer cette suite de carac­té­ris­tiques en une suite de pho­nèmes (les pho­nèmes d’une langue repré­sentent les consti­tuants uni­taires des mots pro­non­cés, au même titre que les lettres sont les com­po­sants des mots écrits).

Ce modèle acous­tique est cou­plé à un modèle de langue qui décrit, gros­so modo, les pro­ba­bi­li­tés des séquences de mots dans une langue don­née. Le sys­tème va ain­si maxi­mi­ser la pro­ba­bi­li­té de la transformation :

  • signal ➔ pho­nème ➔ mots

en choi­sis­sant le mot le plus pro­bable en fonc­tion de ce qui a déjà été transcrit.

Le modèle de langue et le modèle acous­tique sont par­fois réa­li­sés grâce à des modèles neu­ro­naux plu­tôt que des chaînes de Mar­kov avec sou­vent une meilleure capa­ci­té de géné­ra­li­sa­tion, pour­vu que le volume d’ap­pren­tis­sage soit suffisant.

Les modèles « de bout en bout »

La puis­sance de cal­cul et les avan­cées dans les tech­no­lo­gies de réseaux de neu­rones (comme les « Trans­for­mers »), per­mettent d’en­vi­sa­ger le pro­blème dans sa glo­ba­li­té. L’ap­pren­tis­sage consiste à four­nir au modèle des couples discours/transcription en le lais­sant « choi­sir » les carac­té­ris­tiques à rete­nir dans les dif­fé­rents niveaux (repré­sen­ta­tion du son, des pho­nèmes, etc.). Ces modèles sont appe­lés modèles de bout en bout (« end-to-end »).

Ces modèles ont atteint des per­for­mances à l’é­tat l’art dès 2019 et com­mencent à sup­plan­ter les modèles clas­siques en terme de qua­li­té. Du point de vue de l’in­dus­tria­li­sa­tion, les modèles clas­siques (ou hybri­dés) tiennent encore la corde car moins gour­mands en puis­sance de calcul.

Comment mesure-t-on la qualité d’un système de reconnaissance de la parole ?

L’in­di­ca­teur pri­vi­lé­gié est le WER (Word Error Rate) qui compte le nombre de mots incor­rec­te­ment trans­crits pour un volume de texte don­né (avec un cal­cul qui s’ap­pa­rente à celui de la dis­tance d’é­di­tion ou dis­tance de Leven­sh­tein). Le WER est un bon indi­ca­teur pour com­pa­rer deux sys­tèmes d’ASR.

L’é­tat de l’art est que WER soit infé­rieur à 5%, mais cette métrique varie énor­mé­ment en fonc­tion des domaines d’ap­pli­ca­tion (pré­sence ou non de jar­gon, par exemple), de la qua­li­té de la cap­ta­tion sonore, etc.

Un WER à 5% signi­fie qu’en moyenne un mot sur 20 est mal retrans­crit, soit envi­ron un mot toutes les deux phrases, ce qui est loin d’être négli­geable. Un appren­tis­sage spé­ci­fique au locu­teur peut gran­de­ment amé­lio­rer la qua­li­té et faire bais­ser ce taux.

A quelle vitesse peut-on transcrire la voix ?

La vitesse de trans­crip­tion de la voix par un sys­tème, ordi­na­teur ou télé­phone intel­li­gent, dépend évi­dem­ment de la puis­sance de cal­cul asso­ciée, mais aujourd’­hui, une trans­crip­tion en qua­si-temps réel (i.e. aus­si rapide que la parole émise) est courante.

Quels sont les problèmes résiduels en reconnaissance de la parole ?

On l’a dit, les envi­ron­ne­ments bruyants posent des pro­blèmes à ce type de sys­tèmes, ain­si qu’une mau­vaise qua­li­té de prise de son.

Un autre pro­blème est le cas d’u­sage dans lequel plu­sieurs locu­teurs s’ex­priment. Il est aujourd’­hui dif­fi­cile pour ces sys­tèmes de détec­ter quand le locu­teur change et encore plus de recon­naître qui parle, c’est-à-dire d’at­tri­buer cor­rec­te­ment une par­tie de texte à un locu­teur. La recon­nais­sance du locu­teur est encore un sujet de recherche ouvert, même si des sys­tèmes indus­triels arrivent à des per­for­mances cor­rectes dans des cas d’u­sage spécifiques.

Par Hugues de Mazancourt
Président de l'APIL

Études de cas associés

Aide à la saisie de comptes rendus d'intervention de maintenance

Responsable du service après-vente (SAV) dans une entreprise de fabrication et d’installation de volets roulants, j'envoie quotidiennement des techniciens de maintenance intervenir chez nos clients. Après chaque intervention, ils doivent rédiger un compte rendu (CR) dont une grande partie est pré-remplie à l’aide de notre logiciel de gestion de maintenance assistée par ordinateur (GMAO). Il reste cependant une zone de texte libre à renseigner, quel que soit le type d’intervention (corrective, préventive ou curative). Le clavier des tablettes et téléphones qu’utilisent nos techniciens ne permet pas de le faire rapidement. La reconnaissance vocale peut-elle faciliter la tâche de nos techniciens lors de rédaction de leurs CR, tout en s'intégrant aisément à notre application de GMAO ?

Détecter des phénomènes et signaux peu perceptibles pour les opérateurs humains

Officier des forces de sécurité, j'anime une cellule de surveillance des réseaux criminels de toutes sortes, notamment à partir des interceptions de relations entre les membres de ces réseaux : texte, mais surtout enregistrements audio, dans les langues les plus diverses, parfois rares. Je sais que l'intelligence artificielle permet de mettre en évidence des faits d'intérêt majeur par l'analyse dans le temps de ces données textuelles et aimerais en savoir davantage.

Je souhaite contacter le SAV d'un site de commerce en ligne

Quand je contacte le service client d'un fournisseur, je veux que ma demande soit correctement prise en compte afin d'obtenir rapidement le bon interlocuteur.