In der heutigen technischen Landschaft spielen künstliche Intelligenz, virtuelle Menschen und Sprachtechnologie eine immer wichtigere Rolle für die Bildungstechnologie. Rückblickend betrachtet wurden synthetische oder computergenerierte Stimmen, im Vergleich zur menschlichen Stimme, als minderwertiger angesehen. Jüngste Studien haben jedoch gezeigt, dass moderne synthetische Stimmen mit den heutigen fortschreitenden Entwicklungen der Sprachtechnologie in Kombination mit einem virtuellen Menschen tatsächlich bessere Lernergebnisse erzielen können, als menschliche Stimmen oder alte Voice-Engines.

Laut der Studie „Erneutes Überdenken des Spracheffekts beim Lernen von einem virtuellen Menschen“, die von Scotty D. Craig an der Arizona State University und von Noah L. Schroeder an der Wright State University durchgeführt wurde, hat „die moderne Voice-Engine bei den Übertragungsergebnissen einen erheblich höheren Lernerfolg hervorgebracht, verzeichnete eine höhere Trainingseffizienz, wurde auf das gleiche Level gestuft wie ein Agent mit menschlicher Stimme, erleichterte das Lernen, erhöhte die Glaubwürdigkeit und übertraf gleichzeitig ältere Voice-Engines. Diese Ergebnisse stellen frühere Erkenntnisse unter Verwendung älterer Voice-Engines und die Behauptungen über den Spracheffekt in Frage. “ (1).

Mit dem Einzug technologischer Innovationen in das Klassenzimmer sucht die Forschung fortwährend nach effektiven Designs und Möglichkeiten für die Implementierung von Bildungstechnologien. Im Allgemeinen wurde bereits festgestellt, dass Lerntechnologien effektiver werden, wenn virtuelle Menschen oder menschliche Charaktere auf dem Bildschirm verwendet werden (2).

Virtuelle Menschen werden in multimedialen Lernumgebungen und intelligenten Tutorensystemen als Ausbilder, Figuren in pädagogischen Videospielen oder als pädagogische Agenten eingesetzt. Diese Charaktere helfen im Lernprozess, indem sie signalisieren, motivieren, Rollen spielen, als Vermittler fungieren oder Lernstrategien modellieren.

Vergangene Forschungen haben eindeutig gezeigt, dass das Design des pädagogischen Agenten, das bedeutet seine Stimme, Sprachmuster oder sein Erscheinungsbild, Einfluss darauf hat, wie effektiv der Agent das Lernen erleichtert (3). Diese Ergebnisse unterstreichen die Bedeutung eines „zielgerichteten, datengesteuerten Agentendesigns“ (4).

Nach dem so genannten „Spracheffekt“ oder „Sprachprinzip“ wird das „Lernen“ verbessert, wenn eine „normal akzentuierte“ aufgezeichnete menschliche Stimme die Erzählung während einer multimedialen Lernsituation anstelle einer computergenerierten Stimme liefert, die sogenannte „Maschinenstimme“ (5).

Mayer fand überzeugende Beweise, um diese Schlussfolgerung zu stützen. Vier dieser Studien wurden jedoch vor mindestens 10 Jahren veröffentlicht. Seitdem hat sich die Sprachtechnologie rasant weiterentwickelt und die Text-to-Speech-Software wurde erheblich verbessert.

Die 2017 von Craig und Schroder durchgeführte Studie „Erneute Überprüfung des Spracheffekts beim Lernen von einem virtuellen Menschen“ untersucht die Auswirkungen des Spracheffekts in Kombination mit einem virtuellen Menschen auf die Lernergebnisse, die kognitive Belastung und die Wahrnehmung des Agenten.

In der Vergangenheit hatten Forscher angenommen, dass das Lernen mit einer künstlichen Stimme den Lernenden zusätzlich kognitiv belastet und Ablenkungen verursacht. Frühe Untersuchungen von Mayer et al. im Jahr 2003 und erneut im Jahr 2005 zeigten, dass menschliche Stimmen synthetische Stimmen übertreffen. Die Ergebnisse einer ähnlichen Studie von Mayer und DaPra aus dem Jahr 2012, in der fortgeschrittene Sprachtechnologien zum Einsatz kamen, zeigten jedoch keine Lernunterschiede zwischen Gruppen mit Agenten mit menschlichen Stimmen oder solchen mit synthetischen Stimmen, was darauf hindeutete, dass der Sprachtechnologieeffekt möglicherweise nicht mehr existierte.

Craig & Schroder verwendeten Microsofts Voice-Engine als klassische Stimme und NeoSpeechs (jetzt unter der Marke ReadSpeaker) „Kate“ als Vertreter einer modernen Engine. Eine menschliche Stimme wurde als High-End-Kontrolle verwendet. Alle drei Stimmen wurden einem weiblichen virtuellen Menschen gegeben.

Eine zufällige Auswahl von Teilnehmern wurde nach Wahrnehmung, kognitiver Belastung, Multiple-Choice-Fragen und Retention bewertet. „Für die erste (Lern-) und die zweite (kognitive Belastung) Forschungsfrage wurden konsistente Ergebnisse gefunden, die entweder keine Unterschiede zwischen den Bedingungen zeigten oder zeigten, dass die Präsentation des Agenten mit einer modernen Voice-Engine effektiver war als mit der älteren Voice-Engine oder die menschliche Stimme. Dies liefert klare Beweise gegen den Spracheffekt. “ (6). Bei den Multiple-Choice- und Retention-Learning-Maßnahmen und den anderen Effizienzmaßnahmen wurden keine statistisch signifikanten Unterschiede festgestellt.

Es kann gefolgert werden, dass die Art der Stimme, die beim Vergleich von modernem Text mit Sprache oder aufgezeichneten menschlichen Stimmen verwendet wird, für die Lernergebnisse nicht so wichtig ist wie angenommen und moderne Sprachmaschinen möglicherweise genauso effektiv sind wie aufgezeichnete menschliche Stimmen. In ähnlicher Weise wurden keine Unterschiede in den Bewertungen der Teilnehmer, hinsichtlich der Fähigkeit des Agenten das Lernen zu erleichtern und der wahrgenommenen Glaubwürdigkeit festgestellt.

Während Craig & Schroders Studie mit fortschrittlicherer Sprachtechnologie nicht nur den Mythos entlarvt, dass menschliche Stimmen in Lernumgebungen überlegen sind, weist sie auch auf die Tatsache hin, dass moderne synthetische Stimmen sogar bessere Ergebnisse erzielen können als menschliche Stimmen.

Es ist möglich, dass die seit langer Zeit bestehende Idee, virtuelle Menschen zu nutzen, um das Lernen zu verbessern, tatsächlich möglich ist und in Zukunft in größerem Umfang fortgesetzt wird (7).

(1) Craig & Schroeder, 2017
(2) Dehn & Van Mulken, 2000; Graesser, McNamara, & VanLehn, 2005; Graesser & McNamara, 2010; Johnson & Lester, 2016
(3) Baylor & Kim, 2004, 2009; Clark & Choi, 2005; Domagk, 2010; Kim & Wei, 2011; Moreno & Flowerday, 2006; Ozogul, Johnson, Atkinson, & Reisslein, 2013; Schroeder, Romine, & Craig, 2017; Veletsianos, 2010
(4) Craig & Schroeder, 2017
(5) Mayer, 2014b, p. 358
(6) Craig & Schroeder, 2017
(7) Johnson & Lester, 2016