Création dQu’est ce que la synthèse vocale? Une voix synthétique et robotique bonne pour les répondeurs automatiques. C’est ce que vous pensez? Plongez avec nous dans l’envers du décor et venez découvrir comment se fabrique une voix de synthèse vocale. De l’enregistrement de la voix par un acteur à l’écoute du contenu par l’utilisateur final, découvrez tout ce que vous avez toujours voulu savoir sur les voix de synthèse. Pour une bonne voix de synthèse commencez par un enregistrement de qualité! Contrairement aux idées reçues, les voix de synthèse ne sont pas des voix de robots. Des acteurs, choisis pour la qualité de leur voix passent plusieurs heures en studio pour enregistrer des milliers de phrases afin d’obtenir une base de données très riche et documentée. Cette base de données va permettre à la voix de synthèse de prendre en compte toutes les nuances de la langue, accents, intonations… afin de découper chaque mots en phonèmes qui seront ensuite mis bout à bout pour former de nouvelles phrases. Comme un jeu de Lego, le logiciel de synthèse vocale est capable d’assembler et de créer une infinité de phrases différentes à partir des mêmes briques, appelées phonèmes. S’en suivent de nombreuses heures de travail par des linguistes pour affiner le rendu de la voix et la rendre aussi naturelle que possible. Ce travail s’articule autour de trois axes principaux.

Normalisation et analyse

Pour que la voix lise correctement le texte, il faut lui apprendre les normes d’écriture et de formulation des informations pour qu’elle puisse par la suite les interpréter correctement. Quelques exemples:

  • Le chiffre 75002 sera lu de façon différente qu’il représente un code postal (75 002 Paris) ou une somme monétaire (75002€)
  • La série de chiffres 25/04/15 sera interprétée et lue comme une date (25 avril 2015) mais au contraire la série 25/14/15 ne peut pas faire référence à une date et sera donc lue comme une simple suite de nombres.

Compréhension du contexte (désambiguïsation)

Une fois que les normes sont acquises, il faut apprendre à la voix à reconnaître le contexte et à appliquer les normes qu’on lui a précédemment apprises en fonction du contexte de la phrase. C’est également lors de cette phase que l’on va lui apprendre à reconnaître les homographes et à les lire de façon différente en fonction du contexte. Un exemple classique de désambiguïsation en français concerne les noms et les verbes conjugués comme le montrent les phrases suivantes, choisies pour l’occasion:

  • Les membres du gouvernement et le président de la République président aux destinées du pays.
  • Les adoptions d’enfants seraient plus faciles si nous adoptions une loi pour les faciliter.
  • Le reporter a du reporter son interview car il était malade.

Construction des phrases

Une fois que la voix a été « éduquée », elle peut être mise en ligne pour lire tous vos textes. Comment fait-elle? Le logiciel décrypte le texte et le contexte et assemble les phonèmes ensemble pour former les mots et les phrases demandées avec la bonne intonation et la bonne prononciation, fidèle à la voix enregistrée à l’origine! Exactement comme lorsque vous jouez aux Lego, l’assemblage des bonnes pièces au bon moment vous permet d’obtenir la construction souhaitée.