Comment fonctionne la synthèse vocale ?
Sommaire
- Synthèse de la parole, synthèse vocale, Text to Speech, TTS, de quoi parle-t-on ?
- Synthèse vocale et Réponse vocale, quelle différence ?
- De quand date la synthèse de la parole ?
- La synthèse vocale, à quoi ça sert ?
- Text to Speech ou Phonem to Speech ?
- Comment fonctionne la synthèse vocale par apprentissage
- Qu’est-ce que la prosodie, ou comment faire chanter un ordinateur ?
Synthèse de la parole, synthèse vocale, Text to Speech, TTS, de quoi parle-t-on ?
Synthèse de la parole, synthèse vocale, Text to Speech, TTS, tous ces termes sont aujourd’hui synonymes. Ils décrivent le fait de produire du son, aussi proche que possible de la voix humaine. correspondant à un texte écrit en langue naturelle.
Synthèse vocale et Réponse vocale, quelle différence ?
La réponse vocale, quant à elle, consiste à restituer, en fonction du contexte, des phrases ou des parties de phrases enregistrées par des humains. On pense notamment aux annonces d’arrivées en gares dans lesquelles seul le nom de la gare varie d’une annonce à l’autre.
De quand date la synthèse de la parole ?
L’intérêt pour la synthèse vocale est aussi ancien que les premiers robots. Le baron Wolfgang von Kempelen, qui s’est par ailleurs fait connaître pour son fameux « robot » joueur d’échec, a dès 1791 conçu une machine capable de générer de la parole. Ici, au contraire du robot joueur d’échec, pas de joueur de petite taille caché dans un coffre, mais une série de soufflets et de sifflets censés reproduire les conditions anatomiques de la voix humaine, l’opérateur actionnant différent leviers en fonction du son à produire.
C’est, d’une certaine façon, un fonctionnement proche de l’appareil conçu par les chercheurs des laboratoires Bell plus de deux siècles après, en 1939, l’opérateur synthétisant la parole au moyen clavier, comme un pianiste professionnel.
Plus récemment, au tournant des années 90, la disponibilité de grands volumes de données et les capacités grandissantes de calcul ont permis d’améliorer sensiblement la qualité des solutions de synthèse vocable disponibles.
La synthèse vocale, à quoi ça sert ?
Les solutions de synthèses vocales sont particulièrement bien adaptées lorsque la situation rend difficiles, voire impossibles, d’autres modes de communication. On pense naturellement aux situations de handicap, qui ont été un des grands moteurs des progrès des solutions de synthèse vocale, mais également les situations où l’utilisateur opère dans un environnement sollicitant son attention par ailleurs.
La synthèse vocale apporte également un confort dans les usages. En particulier, grâce à la minimisation des composants, des appareils comme les téléphones intelligents ou les tablettes disposent de capacité de calcul suffisantes pour offrir de la synthèse vocale.
Text to Speech ou Phonem to Speech ?
La synthèse vocale passe généralement par deux étapes. La première consiste à transformer le texte à vocaliser en une représentation phonétique. Il suffit de penser aux différentes prononciations des lettres ou des groupes de lettres en français pour comprendre l’enjeu d’une telle transformation. La synthèse vocale est ensuite appliquée sur cette représentation phonétique. D’autres systèmes ne séparent pas les deux étapes et passent directement du texte à la parole.
La synthèse vocales, comment ça marche ?
On peut distinguer deux grandes familles de solutions de synthèses vocales. Celles, historiquement les premières, qui tentent de reproduire l’activité physique du locuteur, alors que d’autres reposent sur des algorithmes d’apprentissage.
Les modèles physiques pour la synthèse vocale
D’une certaine façon, on peut considérer que la machine du Baron Van Kempelen est déjà un modèle physique, au sens où il tentait de reproduire le mode anatomique humain de production de la parole.
Les premières solutions informatiques disponibles reposent sur des bases de couples de sons, chaque son étant représenté par ses formants.
Qu’est-ce qu’un formant
Le son de la voix est produit par la vibration des cordes vocales, ce son est ensuite modifié par les différentes cavités qu’il traverse, pharynx, bouche, nez. Ces résonances modifient le spectre sonore. A titre d’exemple la différence entre le son A et le son AN de mAmAN est due à résonance du formant nasal.
Comment fonctionne la synthèse vocale par apprentissage
Les techniques d’apprentissage, telles que les réseaux neuronaux, ont permis de grandes avancées dans le domaine de la synthèse vocale. On peut distinguer trois grands types d’approches :
- la concaténation de segments
- le paramétrage acoustique
- l’échantillonnage
La concaténation de segments
La concaténation de segments consiste à entraîner un algorithme sur un volume important de segments vocaux associés à leur représentation phonétique. Le programme peut ainsi puis produire des sons qui sont concaténés pour produire des phrases entières. Ces systèmes nécessitent de grandes bases de données.
Le paramétrage acoustique
Le paramétrage acoustique consiste à intervenir sur le son produit par la synthèse vocale, afin de rendre la voix produite plus naturelle, ou bien de l’adapter en fonction de la cible ou des besoins : fréquence de base pour une voix masculine ou féminine, intensité pour simuler des émotions…
L’échantillonnage
Les avancés dans les techniques de réseaux de neurones profonds ont permis de grands progrès en synthèse vocale. L’intérêt de ces techniques réside dans le fait qu’elles ne nécessitent qu’un faible volume de données pour l’apprentissage. Par ailleurs, elle permettent de reproduire une voix proche de celle de la personne enregistrée.
Qu’est-ce que la prosodie, ou comment faire chanter un ordinateur ?
La prosodie, c’est tout ce que la voix humaine porte pour transmettre les émotions – l’étonnement, la déception, la joie… – ou les intentions – poser une question, affirmer un fait… Plus techniquement, la notion de prosodie recouvre le rythme, l’intonation et l’intensité. La prosodie est donc une caractéristique essentielle de la synthèse vocale pour la rendre naturelle. Ajouter la prosodie à la synthèse vocale passe généralement par une analyse linguistique des phrases à synthétiser : analyse syntaxique pour reconnaître les groupes de mots associés, analyse sémantique, voire pragmatique, pour identifier les intentions. Pour une présentation de ces différents niveaux d’analyse, on peut se référer au document produit par l’APIL que l’on trouvera ici.