La technologie de synthèse vocale s’est considérablement améliorée ces dernières années. Aujourd’hui, une voix synthétique lisant un texte court peut souvent parvenir à tromper un grand nombre d’auditeurs, qui pensent réellement écouter un être humain parler.

Faire parler un ordinateur

La méthode la plus courante pour faire parler un ordinateur est d’enregistrer un acteur lisant un texte, puis de réutiliser des petites séquences de ces enregistrements vocaux pour créer de nouvelles phrases. On pourrait penser que l’acteur lit simplement tous les mots d’une langue et que l’ordinateur aligne ensuite ces enregistrements pour créer de nouvelles phrases. C’est une idée séduisante, mais elle ne fonctionnerait pas très bien en pratique. Il serait presque impossible de couvrir tous les mots et noms propres d’une langue. De plus, les mots sont prononcés légèrement différemment selon leur emplacement dans une phrase. De fait, l’acteur lit, au lieu de cela, un scénario soigneusement écrit et dont l’objectif est de capturer toute la richesse de la langue et du discoureur dans un nombre limité de phrases. Néanmoins, plusieurs milliers de phrases sont nécessaires. L’acteur lit ces phrases sous la supervision stricte d’un phonéticien, formé pour s’assurer qu’elles sortent comme prévu et que le style adopté reste le même tout au long de l’enregistrement. Ce processus prend plusieurs semaines. Les phrases enregistrées sont analysées en détail pour que l’ordinateur puisse les utiliser pour créer des phrases totalement nouvelles. Quand on donne à l’ordinateur un texte à lire, il traduit d’abord les caractères qui ne sont pas des mots (par exemple les chiffres) en mots. Puis, il cherche la prononciation de chaque mot dans un dictionnaire de prononciation numérique. Enfin, il essaie de sélectionner les meilleures séquences d’enregistrement (entre toutes les phrases enregistrées), qui correspondent au texte et les rassemble pour créer un nouveau discours synthétique. Ces séquences peuvent être des mots, mais plus généralement ce sont des morceaux plus courts, comme des syllabes (ou encore plus court). Quand ce processus fonctionne comme prévu, le résultat peut être très réaliste et vraiment donner l’impression d’un discours humain enregistré. Dans un sens, il s’agit d’ailleurs, en effet, d’un discours enregistré. Le processus est, cependant, rarement parfait, et de petites erreurs peuvent parfois être remarquées.

Personnalisation et Amélioration constante

Sachant que la « compréhension » du texte lu par l’ordinateur est extrêmement limitée, le discours produit aura plus ou moins une résonance artificielle, voire « robotisée ». Bien que les mots eux-mêmes sonnent juste, la tension vocale et la prosodie globales pourraient donner l’impression que l’orateur ne comprend vraiment pas le texte. Nous travaillons pour constamment améliorer la technologie et les voix de notre système de vocalisation. Nous encourageons également nos clients et utilisateurs finaux à nous faire des retours. En plus d’utiliser les meilleures voix disponibles sur le marché, nous nous distinguons par les améliorations et personnalisations (tant générales que spécifiques aux clients) que nous proposons. Notre équipe compte des linguistes ayant une longue expérience de la synthèse vocale. Ceux-ci travaillent à l’aide de transcriptions afin de peaufiner la prononciation et la lecture du texte parlé, aidant ainsi grandement nos clients à optimiser la qualité de la vocalisation. La vocalisation aide un grand nombre de personnes aujourd’hui. La technologie prenant davantage de maturité, elle devient véritablement bénéfique à un nombre de plus en plus grand d’utilisateurs. Pour savoir comment utiliser la technologie de synthèse vocale dans votre vie quotidienne, téléchargez notre livre électronique gratuit (en anglais) :

Improve Your Life with Text to Speech

Download Your Free eBook