Comment fonctionne la synthèse vocale ?

Synthèse de la parole, synthèse vocale, Text to Speech, TTS, de quoi parle-t-on ?

Syn­thèse de la parole, syn­thèse vocale, Text to Speech, TTS, tous ces termes sont aujourd’­hui syno­nymes. Ils décrivent le fait de pro­duire du son, aus­si proche que pos­sible de la voix humaine. cor­res­pon­dant à un texte écrit en langue naturelle.

Synthèse vocale et Réponse vocale, quelle différence ?

La réponse vocale, quant à elle, consiste à res­ti­tuer, en fonc­tion du contexte, des phrases ou des par­ties de phrases enre­gis­trées par des humains. On pense notam­ment aux annonces d’ar­ri­vées en gares dans les­quelles seul le nom de la gare varie d’une annonce à l’autre.

De quand date la synthèse de la parole ?

L’in­té­rêt pour la syn­thèse vocale est aus­si ancien que les pre­miers robots. Le baron Wolf­gang von Kem­pe­len, qui s’est par ailleurs fait connaître pour son fameux « robot » joueur d’é­chec, a dès 1791 conçu une machine capable de géné­rer de la parole. Ici, au contraire du robot joueur d’é­chec, pas de joueur de petite taille caché dans un coffre, mais une série de souf­flets et de sif­flets cen­sés repro­duire les condi­tions ana­to­miques de la voix humaine, l’o­pé­ra­teur action­nant dif­fé­rent leviers en fonc­tion du son à produire. 

C’est, d’une cer­taine façon, un fonc­tion­ne­ment proche de l’ap­pa­reil conçu par les cher­cheurs des labo­ra­toires Bell plus de deux siècles après, en 1939, l’o­pé­ra­teur syn­thé­ti­sant la parole au moyen cla­vier, comme un pia­niste pro­fes­sion­nel.

Plus récem­ment, au tour­nant des années 90, la dis­po­ni­bi­li­té de grands volumes de don­nées et les capa­ci­tés gran­dis­santes de cal­cul ont per­mis d’a­mé­lio­rer sen­si­ble­ment la qua­li­té des solu­tions de syn­thèse vocable disponibles.

La synthèse vocale, à quoi ça sert ?

Les solu­tions de syn­thèses vocales sont par­ti­cu­liè­re­ment bien adap­tées lorsque la situa­tion rend dif­fi­ciles, voire impos­sibles, d’autres modes de com­mu­ni­ca­tion. On pense natu­rel­le­ment aux situa­tions de han­di­cap, qui ont été un des grands moteurs des pro­grès des solu­tions de syn­thèse vocale, mais éga­le­ment les situa­tions où l’u­ti­li­sa­teur opère dans un envi­ron­ne­ment sol­li­ci­tant son atten­tion par ailleurs.

La syn­thèse vocale apporte éga­le­ment un confort dans les usages. En par­ti­cu­lier, grâce à la mini­mi­sa­tion des com­po­sants, des appa­reils comme les télé­phones intel­li­gents ou les tablettes dis­posent de capa­ci­té de cal­cul suf­fi­santes pour offrir de la syn­thèse vocale.

Text to Speech ou Phonem to Speech ?

La syn­thèse vocale passe géné­ra­le­ment par deux étapes. La pre­mière consiste à trans­for­mer le texte à voca­li­ser en une repré­sen­ta­tion pho­né­tique. Il suf­fit de pen­ser aux dif­fé­rentes pro­non­cia­tions des lettres ou des groupes de lettres en fran­çais pour com­prendre l’en­jeu d’une telle trans­for­ma­tion. La syn­thèse vocale est ensuite appli­quée sur cette repré­sen­ta­tion pho­né­tique. D’autres sys­tèmes ne séparent pas les deux étapes et passent direc­te­ment du texte à la parole.

La synthèse vocales, comment ça marche ?

On peut dis­tin­guer deux grandes familles de solu­tions de syn­thèses vocales. Celles, his­to­ri­que­ment les pre­mières, qui tentent de repro­duire l’acti­vi­té phy­sique du locu­teur, alors que d’autres reposent sur des algo­rithmes d’ap­pren­tis­sage.

Les modèles physiques pour la synthèse vocale

D’une cer­taine façon, on peut consi­dé­rer que la machine du Baron Van Kem­pe­len est déjà un modèle phy­sique, au sens où il ten­tait de repro­duire le mode ana­to­mique humain de pro­duc­tion de la parole.

Les pre­mières solu­tions infor­ma­tiques dis­po­nibles reposent sur des bases de couples de sons, chaque son étant repré­sen­té par ses formants.

Qu’est-ce qu’un formant

Le son de la voix est pro­duit par la vibra­tion des cordes vocales, ce son est ensuite modi­fié par les dif­fé­rentes cavi­tés qu’il tra­verse, pha­rynx, bouche, nez. Ces réso­nances modi­fient le spectre sonore. A titre d’exemple la dif­fé­rence entre le son A et le son AN de mAmAN est due à réso­nance du for­mant nasal.

Comment fonctionne la synthèse vocale par apprentissage

Les tech­niques d’ap­pren­tis­sage, telles que les réseaux neu­ro­naux, ont per­mis de grandes avan­cées dans le domaine de la syn­thèse vocale. On peut dis­tin­guer trois grands types d’approches :

  • la conca­té­na­tion de segments
  • le para­mé­trage acoustique
  • l’échantillonnage

La concaténation de segments

La conca­té­na­tion de seg­ments consiste à entraî­ner un algo­rithme sur un volume impor­tant de seg­ments vocaux asso­ciés à leur repré­sen­ta­tion pho­né­tique. Le pro­gramme peut ain­si puis pro­duire des sons qui sont conca­té­nés pour pro­duire des phrases entières. Ces sys­tèmes néces­sitent de grandes bases de données. 

Le paramétrage acoustique

Le para­mé­trage acous­tique consiste à inter­ve­nir sur le son pro­duit par la syn­thèse vocale, afin de rendre la voix pro­duite plus natu­relle, ou bien de l’a­dap­ter en fonc­tion de la cible ou des besoins : fré­quence de base pour une voix mas­cu­line ou fémi­nine, inten­si­té pour simu­ler des émotions…

L’échantillonnage

Les avan­cés dans les tech­niques de réseaux de neu­rones pro­fonds ont per­mis de grands pro­grès en syn­thèse vocale. L’in­té­rêt de ces tech­niques réside dans le fait qu’elles ne néces­sitent qu’un faible volume de don­nées pour l’ap­pren­tis­sage. Par ailleurs, elle per­mettent de repro­duire une voix proche de celle de la per­sonne enregistrée.

Qu’est-ce que la prosodie, ou comment faire chanter un ordinateur ?

La pro­so­die, c’est tout ce que la voix humaine porte pour trans­mettre les émo­tions – l’é­ton­ne­ment, la décep­tion, la joie… – ou les inten­tions – poser une ques­tion, affir­mer un fait… Plus tech­ni­que­ment, la notion de pro­so­die recouvre le rythme, l’in­to­na­tion et l’in­ten­si­té. La pro­so­die est donc une carac­té­ris­tique essen­tielle de la syn­thèse vocale pour la rendre natu­relle. Ajou­ter la pro­so­die à la syn­thèse vocale passe géné­ra­le­ment par une ana­lyse lin­guis­tique des phrases à syn­thé­ti­ser : ana­lyse syn­taxique pour recon­naître les groupes de mots asso­ciés, ana­lyse séman­tique, voire prag­ma­tique, pour iden­ti­fier les inten­tions. Pour une pré­sen­ta­tion de ces dif­fé­rents niveaux d’a­na­lyse, on peut se réfé­rer au docu­ment pro­duit par l’A­PIL que l’on trou­ve­ra ici.

Par Alain Couillault
PhD Chargé de Mission Innovation APIL

Études de cas associés

Produire et publier des centaines de commentaires d'actualité en quelques minutes

Responsable d'un domaine de publication, je dois assurer la mise en ligne en temps quasiment réel de bulletins d’analyse et de synthèse de données chiffrées massives telles que des résultats de rencontres sportives locales ou d'élections, les derniers chiffres de la pandémie COVID ou les prévisions météorologiques régionales et nationales.