L’intelligence artificielle, l’utilisation d’avatars et la technologie vocale jouent un rôle de plus en plus important dans le domaine de la pédagogie d’aujourd’hui. Jusqu’à maintenant, l’efficacité de la synthèse vocale (voix générée par un ordinateur) était jugée comme inférieure à la voix humaine en termes de résultats d’apprentissage. 

Des études récentes ont cependant démontré qu’une voix synthétique associée à une figure d’être humain (un avatar) produit de meilleurs résultats d’apprentissage que la voix humaine seule, ou que des technologies de synthèse vocales moins récentes.

Selon l’étude Reconsidering the voice effect when learning from a virtual human(“Reconsidérer l’effet de la voix dans l’enseignement par un avatar”) réalisée par Scotty D. Craig de l’Université de l’Etat d’Arizona et Noah L. Schroeder de l’Université de l’Etat de Wright, la technologie de synthèse vocale moderne produit de meilleurs résultats quant au transfert d’informations. 

Elle est plus efficace et a été évaluée comme équivalente à un agent ayant une voix humaine en termes de facilitation de l’apprentissage et de crédibilité, tout en dépassant la technologie de synthèse vocale moins récente ainsi que l’argument lié à “l’effet de la voix””.  (1)

Alors que les technologies de l’innovation arrivent dans les salles de classe, les recherches pour le design et l’implémentation effectifs des technologies éducatives se développent. En général, il a été prouvé que l’apprentissage devient plus effectif quand on affiche des avatars, ou des personnages ayant l’apparence humaine à l’écran. (2)

Les avatars sont utilisés comme professeurs ou comme personnages dans des jeux vidéos éducatifs dans des environnements d’apprentissage multimédia et dans des systèmes de tutorat intelligents. Ces personnages permettent de faciliter le processus d’apprentissage en indiquant, motivant, faisant des mises en situation, animant ou en créant des stratégies d’apprentissage. 

Les chercheurs ont démontré que le design de l’agent pédagogique, c’est-à-dire sa voix, sa manière de parler et son apparence, influence sa capacité à enseigner efficacement (3). Ces résultats mettent ainsi en avant l’importance d’une conception intentionnelle de l’avatar, centrée sur les données. (4)

Selon l’argument de l’effet de la voix ou principe de la voix : “l’apprentissage est amélioré lorsqu’une voix à consonance humaine plutôt qu’une voix synthétique fait office de narration dans une situation d’apprentissage multimédia”. (5)

Mayer a trouvé des preuves soutenant cette conclusion. Quatre de ces études ont cependant été publiées il y a 10 ans ou plus. Les technologies de synthèse vocale ont évolué rapidement pendant cette période et les logiciels de retranscription vocale se sont largement améliorés.

La recherche de Craig et Schroder mentionnée plus haut (“Reconsidérer l’effet de la voix dans l’enseignement par un avatar”) de 2017 examine l’impact de la voix couplée à un avatar sur les résultats d’apprentissage, la charge cognitive et la perception de l’apprenant.

Jusqu’à récemment, les chercheurs pensaient que l’apprentissage avec une voix artificielle ajoutait une charge cognitive additionnelle et s’avérait même une distraction pour l’apprenant. 

Les premières recherches menées par Mayer et al. en 2003, puis à nouveau en 2005, ont ainsi montré que la voix humaine produisait de meilleurs résultats d’apprentissage que la synthèse vocale. 

Néanmoins, les résultats d’une étude similaire menée en 2012 par Mayer et DaPra utilisant des technologies de synthèse vocale plus avancées n’ont indiqué aucune différence entre l’apprentissage de groupes qui avaient des agents pédagogiques avec des voix humaines et les groupes qui apprenaient avec des voix de synthèse, menant à la conclusion que, peut-être, l’effet de voix n’existe plus. 

Craign & Schroder ont utilisé la synthèse vocale de Microsoft comme référence et la voix de Kate de NeoSpeech (maintenant la propriété de ReadSpeaker) comme représentante de la synthèse vocale moderne. Une voix humaine a été utilisée comme témoin neutre. Ces 3 voix ont été attribuée à un avatar humain féminin.  

Une sélection aléatoire de participants a été évaluée sur ses impressions, sa charge cognitive, sa réponse à des questions à choix multiples et sa rétention. « Pour les deux premières questions de recherche (apprentissage et charge cognitive), nous avons obtenu des résultats cohérents, qui n’ont démontré aucune différence entre les conditions expérimentales ou démontré que l’enseignement divulgué par l’agent avec une voix de synthèse moderne était plus efficace que les autres. Ceci constitue une preuve solide à l’encontre de l’effet de la voix ». (6)

Aucune différence statistique significative n’a été constatée sur les questions à choix multiples, la rétention de l’apprentissage ou les autres critères utilisés pour mesurer l’efficacité.

On peut donc conclure que le type de voix utilisé n’est pas aussi important pour les résultats d’apprentissage qu’on le supposait autrefois, et que la synthèse vocale moderne peut par ailleurs être tout aussi efficace qu’une voix humaine enregistrée. De la même manière, les participants n’ont pas noté différemment la capacité d’enseignement ni la crédibilité de l’agent pédagogique qui leur avait été attribué. 

L’étude de Craig et Schroder réfute non seulement le mythe de la supériorité de la voix humaine dans l’apprentissage, mais elle souligne également le fait que la synthèse vocale moderne peut même produire de meilleurs résultats que la voix humaine.

L’idée selon laquelle les avatars et la synthèse vocale peuvent améliorer l’apprentissage est désormais envisageable ; il est probable que cette idée continue à prendre de l’importance dans le futur.

(1) Craig & Schroeder, 2017
(2) Dehn & Van Mulken, 2000; Graesser, McNamara, & VanLehn, 2005; Graesser & McNamara, 2010; Johnson & Lester, 2016
(3) Baylor & Kim, 2004, 2009; Clark & Choi, 2005; Domagk, 2010; Kim & Wei, 2011; Moreno & Flowerday, 2006; Ozogul, Johnson, Atkinson, & Reisslein, 2013; Schroeder, Romine, & Craig, 2017; Veletsianos, 2010
(4) Craig & Schroeder, 2017
(5) Mayer, 2014b, p. 358
(6) Craig & Schroeder, 2017
(7) Johnson & Lester, 2016