Reconnaissance automatique de la parole

La recon­nais­sance auto­ma­tique de la parole (Auto­ma­tic Speech Recog­ni­tion ou ASR en anglais) consiste à trans­for­mer la parole humaine en un texte, en recon­nais­sant les mots pro­non­cés. Ces tech­niques existent depuis long­temps (dès les années 1950) et se sont consi­dé­ra­ble­ment amé­lio­rées ces der­nières décen­nies avec l’ap­pa­ri­tion des assis­tants vocaux.

La recon­nais­sance auto­ma­tique de la parole recouvre for­mel­le­ment plus que la simple trans­crip­tion (speech to text ou STT en anglais) mais c’est dans ce domaine que les sys­tèmes sont les plus performants.

Comment transformer la voix en texte ?

Le domaine de la recon­nais­sance de la parole uti­lise depuis ses débuts des modèles par appren­tis­sage. Les réseaux de Mar­kov Cachés (Hid­den Mar­kov Models ou HMM en anglais) sont les outils les plus uti­li­sés, même si, comme par­tout en trai­te­ment de la langue, les réseaux de neu­rones bou­le­versent les tech­niques disponibles.

La méthode la plus fré­quem­ment uti­li­sée consiste, par appren­tis­sage, à trans­for­mer le signal en un ensemble de carac­té­ris­tiques uni­taires, au moyen d’ou­tils mathé­ma­tiques tels que les Trans­for­ma­tions de Fou­rier. L’en­traî­ne­ment consiste à faire apprendre à un modèle à trans­for­mer cette suite de carac­té­ris­tiques en une suite de pho­nèmes (les pho­nèmes d’une langue repré­sentent les consti­tuants uni­taires des mots pro­non­cés, au même titre que les lettres sont les com­po­sants des mots écrits).

Ce modèle acous­tique est cou­plé à un modèle de langue qui décrit, gros­so modo, les pro­ba­bi­li­tés des séquences de mots dans une langue don­née. Le sys­tème va ain­si maxi­mi­ser la pro­ba­bi­li­té de la transformation :

  • signal ➔ pho­nème ➔ mots

en choi­sis­sant le mot le plus pro­bable en fonc­tion de ce qui a déjà été transcrit.

Le modèle de langue et le modèle acous­tique sont par­fois réa­li­sés grâce à des modèles neu­ro­naux plu­tôt que des chaînes de Mar­kov avec sou­vent une meilleure capa­ci­té de géné­ra­li­sa­tion, pour­vu que le volume d’ap­pren­tis­sage soit suffisant.

Les modèles « de bout en bout »

La puis­sance de cal­cul et les avan­cées dans les tech­no­lo­gies de réseaux de neu­rones (comme les « Trans­for­mers »), per­mettent d’en­vi­sa­ger le pro­blème dans sa glo­ba­li­té. L’ap­pren­tis­sage consiste à four­nir au modèle des couples discours/transcription en le lais­sant « choi­sir » les carac­té­ris­tiques à rete­nir dans les dif­fé­rents niveaux (repré­sen­ta­tion du son, des pho­nèmes, etc.). Ces modèles sont appe­lés modèles de bout en bout (« end-to-end »).

Ces modèles ont atteint des per­for­mances à l’é­tat l’art dès 2019 et com­mencent à sup­plan­ter les modèles clas­siques en terme de qua­li­té. Du point de vue de l’in­dus­tria­li­sa­tion, les modèles clas­siques (ou hybri­dés) tiennent encore la corde car moins gour­mands en puis­sance de calcul.

Comment mesure-t-on la qualité d’un système de reconnaissance de la parole ?

L’in­di­ca­teur pri­vi­lé­gié est le WER (Word Error Rate) qui compte le nombre de mots incor­rec­te­ment trans­crits pour un volume de texte don­né (avec un cal­cul qui s’ap­pa­rente à celui de la dis­tance d’é­di­tion ou dis­tance de Leven­sh­tein). Le WER est un bon indi­ca­teur pour com­pa­rer deux sys­tèmes d’ASR.

L’é­tat de l’art est que WER soit infé­rieur à 5%, mais cette métrique varie énor­mé­ment en fonc­tion des domaines d’ap­pli­ca­tion (pré­sence ou non de jar­gon, par exemple), de la qua­li­té de la cap­ta­tion sonore, etc.

Un WER à 5% signi­fie qu’en moyenne un mot sur 20 est mal retrans­crit, soit envi­ron un mot toutes les deux phrases, ce qui est loin d’être négli­geable. Un appren­tis­sage spé­ci­fique au locu­teur peut gran­de­ment amé­lio­rer la qua­li­té et faire bais­ser ce taux.

A quelle vitesse peut-on transcrire la voix ?

La vitesse de trans­crip­tion de la voix par un sys­tème, ordi­na­teur ou télé­phone intel­li­gent, dépend évi­dem­ment de la puis­sance de cal­cul asso­ciée, mais aujourd’­hui, une trans­crip­tion en qua­si-temps réel (i.e. aus­si rapide que la parole émise) est courante.

Quels sont les problèmes résiduels en reconnaissance de la parole ?

On l’a dit, les envi­ron­ne­ments bruyants posent des pro­blèmes à ce type de sys­tèmes, ain­si qu’une mau­vaise qua­li­té de prise de son.

Un autre pro­blème est le cas d’u­sage dans lequel plu­sieurs locu­teurs s’ex­priment. Il est aujourd’­hui dif­fi­cile pour ces sys­tèmes de détec­ter quand le locu­teur change et encore plus de recon­naître qui parle, c’est-à-dire d’at­tri­buer cor­rec­te­ment une par­tie de texte à un locu­teur. La recon­nais­sance du locu­teur est encore un sujet de recherche ouvert, même si des sys­tèmes indus­triels arrivent à des per­for­mances cor­rectes dans des cas d’u­sage spécifiques.

Par Hugues de Mazancourt
Président de l'APIL