Technologie d’interface vocale : ce que vous devez savoir

18 mai 2023 by Jean-Rémi Larcelet-Prost

La technologie d’interface vocale est partout, peut-être même chez vous. Les assistants vocaux tels qu’Alexa, Siri, et Google Assistant contrôlent plus de 3 milliards d’appareils, un chiffre qui devrait plus que doubler d’ici 2023. Ces profils familiers sont le côté public des interfaces utilisateur vocales (ou IUV).

Mais les IUV ne sont pas uniquement destinées aux enceintes connectées. Cette technologie améliore des processus opérationnels essentiels, du contrôle mains libres sur les lignes de production à la réservation d’une salle de réunion en déplacement. Voici ce que les décideurs d’entreprise doivent savoir sur la technologie d’interface vocale : ce qu’elle est, ce qu’elle fait et comment elle peut aider l’entreprise à atteindre ses objectifs.

Interface utilisateur vocale : Une définition

En informatique, l’interface utilisateur est le matériel et le logiciel qui permettent à une personne d’interagir avec une machine. Elle peut inclure un clavier, une souris ou un écran tactile en plus du logiciel qui génère les éléments à l’écran à cliquer, à faire glisser ou permettant de saisir du texte.

Les ordinateurs personnels du début des années 1980 étaient contrôlés par une interface texte seulement. Les utilisateurs devaient saisir des commandes textuelles très spécifiques pour que la machine fasse quoi que ce soit. Les interfaces utilisateur graphiques (GUI), telles que celle du Macintosh, la révolution d’Apple en 1984, ont remplacé ces commandes astreignantes par des icônes visuelles que les utilisateurs pouvaient manipuler à l’aide d’une souris. C’est ainsi qu’est née l’image de bureau telle que nous l’utilisons encore aujourd’hui.

Comme l’interface graphique utilisateur et l’interface de lignes de commandes avant elle, l’IUV offre aux utilisateurs une nouvelle façon de transmettre les commandes aux appareils numériques, mais cette fois sans utiliser d’écran, de clavier ou de souris. En résumé, on peut définir l’IUV comme une technologie qui permet aux personnes d’interagir avec les appareils numériques par la voix.

Éléments de l’interface utilisateur vocale

Une interface utilisateur vocale pure accepte les entrées et fournit les sorties en utilisant uniquement la parole. Vous pouvez la comparer avec une interface utilisateur bimodale, qui combine l’interaction vocale avec un autre médium tel que le texte affiché sur un écran. La télévision connectée, qui vous permet de baisser le volume à l’aide de commandes vocales, est un exemple d’interface utilisateur bimodale. C’est un appareil à commande vocale, mais elle affichera toujours la barre de volume en représentation graphique sur l’écran, qui diminue lorsque vous baissez le volume.

Pour l’instant, nous nous limiterons à l’IUV de bout en bout, un système qui accepte les commandes vocales et répond à ces commandes en utilisant la voix synthétisée. Dans une IUV purement vocale, trois technologies interviennent pour créer une interaction de plus en plus naturelle entre les personnes et leurs outils :

La reconnaissance automatique de la parole. La première tâche de l’IUV consiste à transcrire la commande vocalisée en un format lisible à la machine, généralement du texte. Au tout début de l’essor de l’IUV, au milieu des années 2000 environ, la reconnaissance automatique de la parole se limitait à une liste définie de commandes et les premiers moteurs de synthèse vocale étaient facilement perturbés par les modulations de la voix, le ton et l’accent de la personne qui parlait. Ce n’est plus le cas, comme nous en discuterons dans le troisième point de cette liste.
La synthèse vocale. Un appareil à commande vocale traduit une commande vocalisée en texte, exécute cette commande et prépare une réponse — une réponse textuelle rédigée. Un moteur de synthèse vocale traduit ce texte en voix synthétique pour boucler la boucle de l’interaction avec l’utilisateur. Il existe de grandes variations dans la qualité de la synthèse vocale, même dans les interfaces utilisateur vocales d’aujourd’hui, allant de voix robotiques dépourvues d’émotion à des voix chaleureuses et réalistes, comme celles des solutions ReadSpeaker .
L’intelligence artificielle (IA). Les premières IUV n’étaient pas faciles à utiliser. Elles trébuchaient sur les subtiles variations d’accents ou de dialectes d’une personne à l’autre. Les réponses par synthèse vocale pré-rédigées avaient un son grésillant et inhumain, souvent difficile à comprendre. L’intelligence artificielle permet de résoudre ces problèmes. Les réseaux neuronaux puissants apprennent de la parole humaine réelle, et améliorent ainsi la reconnaissance avec le temps. Ce type de reconnaissance automatique de la parole basé sur l’IA est appelé compréhension du langage naturel (CLN), et c’est ce qui permet à Alexa de reconnaître que « joue ma playlist préférée » et « écoutons de la musique » signifient la même chose. Du côté de la synthèse vocale, le deep learning permet d’obtenir des modèles vocaux qui reproduisent les subtiles variations du langage de l’utilisateur pour créer un discours au ton beaucoup plus humain, reflétant même le dialecte de l’utilisateur le cas échéant. C’est ce qu’on appelle la génération de langage naturel (GLN).

Mais si l’intelligence artificielle révolutionne la reconnaissance automatique de la parole et les moteurs de synthèse vocale, celles-ci restent deux technologies très différentes. Lorsque les fournisseurs d’interface utilisateur conçoivent une interface pour la voix, ils ont besoin d’au moins deux partenaires : Une entreprise qui construise des systèmes de reconnaissance automatique de la parole et une autre spécialisée dans la synthèse vocale.

Vous cherchez un fournisseur de synthèse vocale pour une IUV personnalisée ? Découvrez les témoignages de nos clients et voyez comment on peut travailler avec ReadSpeaker.

Un bref historique de la technologie d’interface vocale

La technologie des interfaces utilisateur n’est entrée dans la vie domestique que lorsque Apple a lancé son assistant vocal Siri sur l’iPhone 4S en 2011. Mais l’IUV plonge ses racines bien plus profond, la reconnaissance automatique de la parole et la synthèse vocale suivant chacune une trajectoire distincte.

Selon l’International Computer Science Institute, la naissance de la reconnaissance automatique de la parole remonte en 1952, lorsque Bell Labs a lancé un appareil appelé Audrey. Audrey était capable de comprendre les chiffres vocalisés de zéro à neuf avec une précision de 99 %, ce qui limitait son utilisation à la composition de numéros de téléphone par commande vocale. Cet appareil coûtait en outre une fortune et occupait un rack de près de deux mètres. Audrey n’était pas un produit de consommation, mais a servi de démonstration de principe.

Une décennie plus tard, lors de l’exposition mondiale, IBM levait le voile sur la « Shoebox » (littéralement la boîte à chaussures), une machine capable de comprendre 16 mots en anglais. En 1971, la U.S. Defense Advanced Research Project Agency’s (DARPA) commençait à travailler sur Harpy, le premier système de reconnaissance vocale capable de comprendre un vocabulaire de plus de 1 000 mots. Tout au long des années 1970 et 1980, la reconnaissance automatique de la parole restait toutefois strictement en-dehors de l’espace des consommateurs.

Tout changea en 1990, lorsqu’une entreprise appelée Dragon Systems lança un programme de reconnaissance automatique de la parole limité destiné au grand public. Sept ans plus tard, Dragon commercialisait le premier logiciel de reconnaissance capable de comprendre des phrases complètes : Dragon NaturallySpeaking. Aujourd’hui encore, les médecins utilisent une version actualisée de ce produit comme système de dictée vocale mains libres.

Dans les années 2010, les progrès de la compréhension du langage naturel donnent naissance à la première génération d’assistants vocaux, et le système Watson d’IBM participe au célèbre jeu télévisé américain Jeopardy. Aujourd’hui, la CLN permet aux systèmes de reconnaissance vocale de comprendre les subtiles différences du langage parlé, créant une interaction plus naturelle entre les appareils et leurs utilisateurs.

La technologie de la voix synthétique remonte encore plus loin que la reconnaissance automatique de la parole. Lors d’une interview sur le podcast Alpha Voice, Niclas Bergström, de ReadSpeaker, revient sur l’histoire de la synthèse vocale qui commence en 1779 avec une machine produisant une voix synthétique, fabriquée à partir d’un système de anches et de résonateurs.

Dès la fin des années 1920, Bell Labs commença à expérimenter les synthétiseurs vocaux électroniques, conduisant, une décennie plus tard, à l’invention de l’ingénieur Hommer Dudley : le Voder, la première machine de synthèse vocale totalement fonctionnelle.

Le premier véritable système de synthèse vocale vit le jour au Japon en 1968, explique Niclas Bergström. Les années 1970 virent l’explosion de la technologie de synthèse vocale et des systèmes commerciaux majeurs tels que le Speak and Spell de Texas Instruments ou la gamme de machines à lire de Ray Kurzweil pour les personnes souffrant de déficience visuelle.

Dans les années 1990, la synthèse vocale propulsa la croissance des serveurs vocaux interactifs (SVI), les systèmes téléphoniques automatisés et informatisés encore utilisés de nos jours.

1999 est l’année de création de ReadSpeaker, qui devint rapidement la première entreprise à introduire la synthèse vocale sur des systèmes de cloud computing. Cette innovation permit aux développeurs concevant pour la voix d’incorporer facilement la synthèse vocale dans des logiciels indépendants et, plus tard, dans des applications mobiles. Aujourd’hui, ReadSpeaker fait progresser la technologie de la synthèse vocale en se positionnant comme un pionnier dans l’utilisation des réseaux neuronaux puissants, une technologie qui rend l’IUV pus dynamique et facile d’utilisation sur une base continue. Voici quelques-unes des façons dont les entreprises utilisent aujourd’hui l’IUV pour ajouter de la valeur.

Exemples d’interface utilisateur vocale des entreprises d’aujourd’hui

Alors que les IUV les plus familières sont celles des téléphones mobiles et des enceintes connectées, les entreprises utilisent la technologie de l’interface vocale pour faciliter la collaboration, multiplier les occasions de promouvoir leur image de marque, améliorer les expériences utilisateur pour leurs clients et bien plus encore. Voici quelques exemples d’interface utilisateur vocale mises en œuvre :

Les fabricants utilisent l’IUV pour contrôler les lignes de production et adopter l’Internet des Objets industriel local tout en continuant à utiliser leurs outils.
Les enseignants utilisent en classe des appareils IUV qui répondent aux questions des étudiants, fournissent instantanément des informations et constituent même une aide à l’enseignement des langues.
Dans le domaine médical, les professionnels de la santé apprécient les systèmes de dictée vocale mains libres qui simplifient la création des dossiers médicaux.
Ajouter une IUV à des systèmes informatiques sur serveurs permet aux salariés de réserver des salles de réunion, de déplacer des rendez-vous et d’enregistrer des notes dans un système sûr et fermé, et sans toucher aucun terminal informatique.
Des entreprises fournissent des services par assistant vocal conçus pour l’entreprise. Par exemple, Synqq est une application de prise de notes intelligente qui utilise la CNL pour enregistrer des réunions et met en exergue les moments importants, telles que les discussions autour des mesures à mettre en œuvre.
Les plateformes d’IA conversationnelle telles que MindMeld constituent un point de départ pour les entreprises qui cherchent à mettre en œuvre une IUV dans leurs propres systèmes de service client.

Comme le suggèrent ces exemples, les entreprises utilisent les IUV de deux façons principales : Au bureau, pour simplifier les processus internes, et dans leurs produits, pour créer une meilleure expérience utilisateur. Dans une application comme dans l’autre, la voix dédiée peut renforcer la reconnaissance, la fidélité et l’engagement entre l’entreprise et la personne qui écoute. Découvrez ici comment ReadSpeaker propulse les IUV et autres applications de synthèse vocale.

Vous avez besoin de synthèse vocale neuronale pour une interface utilisateur vocale ?

Les voix personnalisées ReadSpeaker sont presque impossibles à distinguer d’une voix humaine. Elles sont conçues sur mesure pour correspondre à votre marque. Elles sont disponibles dans plus de 30 langues et d’autres sont en préparation. Les interfaces vocales n’apportent aucune possibilité d’identification visuelle traditionnelle telle que les logos et la charte graphique. Ce qui signifie que la distinction d’une marque par rapport à une autre repose sur la voix elle-même. Et ReadSpeaker apporte une aide efficace pour cela.

Que vous choisissiez une voix dédiée et personnalisée ou une voix standard, les services de synthèse vocale de ReadSpeaker sont idéaux pour toute personne concevant des interfaces utilisateur vocales. Nos solutions fonctionnent en ligne, sur votre serveur ou même hors ligne, en mode embarqué dans un appareil. Toutes les solutions de synthèse vocale ReadSpeaker ont été construites par des équipes d’ingénieurs, de linguistes et de réseaux neuronaux puissants et nous faisons cela depuis 1999. Contactez-nous dès aujourd’hui pour discuter de la façon dont nous pouvons vous aider à concevoir et à mettre en œuvre une technologie d’interface vocale pour les systèmes essentiels à votre mission.

Accessibilité

Guide pratique de l’accessibilité des contenus Web : Comprendre les WCAG 18 décembre 2023 by Amy Foxwell

Si votre organisation possède un site Web, celui-ci doit être accessible aux personnes en situation de handicap. En effet, d’un point de vue éthique, vous…

Lire tout l’article

Actualités ReadSpeaker

Le quotidien Corriere della Sera fait le choix de l’innovation en se dotant de voix numériques exclusives, signées ReadSpeaker 19 octobre 2023 by Gaea Vilage

Le prestigieux journal italien fait appel à l’expertise de ReadSpeaker dans le domaine de la synthèse vocale pour améliorer l’expérience de ses lecteurs Milan, Italie.…

Lire tout l’article

Actualités ReadSpeaker

ReadSpeaker présente son plug-in de synthèse vocale pour Unreal et Unity 30 juin 2023 by Jean-Rémi Larcelet-Prost

Dynamic Runtime Text-to-Speech plugin allows game developers to leverage a single runtime TTS solution across multiple platforms to make games more accessible.