Comment fonctionne la synthèse vocale ?

Synthèse de la parole, synthèse vocale, Text to Speech, TTS, de quoi parle-t-on ?

Syn­thèse de la parole, syn­thèse vocale, Text to Speech, TTS, tous ces termes sont aujourd’­hui syno­nymes. Ils décrivent le fait de pro­duire du son, aus­si proche que pos­sible de la voix humaine. cor­res­pon­dant à un texte écrit en langue naturelle.

Synthèse vocale et Réponse vocale, quelle différence ?

La réponse vocale, quant à elle, consiste à res­ti­tuer, en fonc­tion du contexte, des phrases ou des par­ties de phrases enre­gis­trées par des humains. On pense notam­ment aux annonces d’ar­ri­vées en gares dans les­quelles seul le nom de la gare varie d’une annonce à l’autre.

De quand date la synthèse de la parole ?

L’in­té­rêt pour la syn­thèse vocale est aus­si ancien que les pre­miers robots. Le baron Wolf­gang von Kem­pe­len, qui s’est par ailleurs fait connaître pour son fameux « robot » joueur d’é­chec, a dès 1791 conçu une machine capable de géné­rer de la parole. Ici, au contraire du robot joueur d’é­chec, pas de joueur de petite taille caché dans un coffre, mais une série de souf­flets et de sif­flets cen­sés repro­duire les condi­tions ana­to­miques de la voix humaine, l’o­pé­ra­teur action­nant dif­fé­rent leviers en fonc­tion du son à produire. 

C’est, d’une cer­taine façon, un fonc­tion­ne­ment proche de l’ap­pa­reil conçu par les cher­cheurs des labo­ra­toires Bell plus de deux siècles après, en 1939, l’o­pé­ra­teur syn­thé­ti­sant la parole au moyen cla­vier, comme un pia­niste pro­fes­sion­nel.

Plus récem­ment, au tour­nant des années 90, la dis­po­ni­bi­li­té de grands volumes de don­nées et les capa­ci­tés gran­dis­santes de cal­cul ont per­mis d’a­mé­lio­rer sen­si­ble­ment la qua­li­té des solu­tions de syn­thèse vocable disponibles.

La synthèse vocale, à quoi ça sert ?

Les solu­tions de syn­thèses vocales sont par­ti­cu­liè­re­ment bien adap­tées lorsque la situa­tion rend dif­fi­ciles, voire impos­sibles, d’autres modes de com­mu­ni­ca­tion. On pense natu­rel­le­ment aux situa­tions de han­di­cap, qui ont été un des grands moteurs des pro­grès des solu­tions de syn­thèse vocale, mais éga­le­ment les situa­tions où l’u­ti­li­sa­teur opère dans un envi­ron­ne­ment sol­li­ci­tant son atten­tion par ailleurs.

La syn­thèse vocale apporte éga­le­ment un confort dans les usages. En par­ti­cu­lier, grâce à la mini­mi­sa­tion des com­po­sants, des appa­reils comme les télé­phones intel­li­gents ou les tablettes dis­posent de capa­ci­té de cal­cul suf­fi­santes pour offrir de la syn­thèse vocale.

Text to Speech ou Phonem to Speech ?

La syn­thèse vocale passe géné­ra­le­ment par deux étapes. La pre­mière consiste à trans­for­mer le texte à voca­li­ser en une repré­sen­ta­tion pho­né­tique. Il suf­fit de pen­ser aux dif­fé­rentes pro­non­cia­tions des lettres ou des groupes de lettres en fran­çais pour com­prendre l’en­jeu d’une telle trans­for­ma­tion. La syn­thèse vocale est ensuite appli­quée sur cette repré­sen­ta­tion pho­né­tique. D’autres sys­tèmes ne séparent pas les deux étapes et passent direc­te­ment du texte à la parole.

La synthèse vocales, comment ça marche ?

On peut dis­tin­guer deux grandes familles de solu­tions de syn­thèses vocales. Celles, his­to­ri­que­ment les pre­mières, qui tentent de repro­duire l’acti­vi­té phy­sique du locu­teur, alors que d’autres reposent sur des algo­rithmes d’ap­pren­tis­sage.

Les modèles physiques pour la synthèse vocale

D’une cer­taine façon, on peut consi­dé­rer que la machine du Baron Van Kem­pe­len est déjà un modèle phy­sique, au sens où il ten­tait de repro­duire le mode ana­to­mique humain de pro­duc­tion de la parole.

Les pre­mières solu­tions infor­ma­tiques dis­po­nibles reposent sur des bases de couples de sons, chaque son étant repré­sen­té par ses formants.

Qu’est-ce qu’un formant

Le son de la voix est pro­duit par la vibra­tion des cordes vocales, ce son est ensuite modi­fié par les dif­fé­rentes cavi­tés qu’il tra­verse, pha­rynx, bouche, nez. Ces réso­nances modi­fient le spectre sonore. A titre d’exemple la dif­fé­rence entre le son A et le son AN de mAmAN est due à réso­nance du for­mant nasal.

Comment fonctionne la synthèse vocale par apprentissage

Les tech­niques d’ap­pren­tis­sage, telles que les réseaux neu­ro­naux, ont per­mis de grandes avan­cées dans le domaine de la syn­thèse vocale. On peut dis­tin­guer trois grands types d’approches :

  • la conca­té­na­tion de segments
  • le para­mé­trage acoustique
  • l’échantillonnage

La concaténation de segments

La conca­té­na­tion de seg­ments consiste à entraî­ner un algo­rithme sur un volume impor­tant de seg­ments vocaux asso­ciés à leur repré­sen­ta­tion pho­né­tique. Le pro­gramme peut ain­si puis pro­duire des sons qui sont conca­té­nés pour pro­duire des phrases entières. Ces sys­tèmes néces­sitent de grandes bases de données. 

Le paramétrage acoustique

Le para­mé­trage acous­tique consiste à inter­ve­nir sur le son pro­duit par la syn­thèse vocale, afin de rendre la voix pro­duite plus natu­relle, ou bien de l’a­dap­ter en fonc­tion de la cible ou des besoins : fré­quence de base pour une voix mas­cu­line ou fémi­nine, inten­si­té pour simu­ler des émotions…

L’échantillonnage

Les avan­cés dans les tech­niques de réseaux de neu­rones pro­fonds ont per­mis de grands pro­grès en syn­thèse vocale. L’in­té­rêt de ces tech­niques réside dans le fait qu’elles ne néces­sitent qu’un faible volume de don­nées pour l’ap­pren­tis­sage. Par ailleurs, elle per­mettent de repro­duire une voix proche de celle de la per­sonne enregistrée.

Qu’est-ce que la prosodie, ou comment faire chanter un ordinateur ?

La pro­so­die, c’est tout ce que la voix humaine porte pour trans­mettre les émo­tions – l’é­ton­ne­ment, la décep­tion, la joie… – ou les inten­tions – poser une ques­tion, affir­mer un fait… Plus tech­ni­que­ment, la notion de pro­so­die recouvre le rythme, l’in­to­na­tion et l’in­ten­si­té. La pro­so­die est donc une carac­té­ris­tique essen­tielle de la syn­thèse vocale pour la rendre natu­relle. Ajou­ter la pro­so­die à la syn­thèse vocale passe géné­ra­le­ment par une ana­lyse lin­guis­tique des phrases à syn­thé­ti­ser : ana­lyse syn­taxique pour recon­naître les groupes de mots asso­ciés, ana­lyse séman­tique, voire prag­ma­tique, pour iden­ti­fier les inten­tions. Pour une pré­sen­ta­tion de ces dif­fé­rents niveaux d’a­na­lyse, on peut se réfé­rer au docu­ment pro­duit par l’A­PIL que l’on trou­ve­ra ici.

Par Alain Couillault
PhD Chargé de Mission Innovation APIL