Wszystko, co musisz wiedzieć o syntezie mowy dla edukacji

Zastanawiasz się, w jaki sposób synteza mowy poprawia proces nauki niezależnie od etapu kształcenia? Odpowiedź znajdziesz w sekcji FAQ poniżej.

maja 21, 2024 by Amy Foxwell

Two students at school wearing headphones using text-to-speech technology while doing their homework on a laptop. The teacher sits behind them watching how they work.

Chcesz dowiedzieć się więcej na temat syntezy mowy? Poniżej przedstawiamy odpowiedzi na 11 często zadawanych pytań, w tym informacje na temat tego, w jaki sposób korzystać z syntezy mowy w kontekstach edukacyjnych tak, aby pomóc osobom uczącym się w nauce, przykuć ich uwagę i zatrzymać na dłużej.

Powstanie technologii edukacyjnych spowodowało szybkie zmiany w świecie kształcenia. Osoby uczące się mogą przyswajać nowe wiadomości na coraz więcej sposobów – i, podobnie zresztą jak nauczyciele, oczekują od podmiotów świadczących usługi edukacyjne więcej niż kiedykolwiek w zakresie sposobów dostarczania tych treści.

Dostępność różnych narzędzi wyrównujących szanse i umożliwiających naukę na wiele różnych sposobów sprawia, że liderzy organizacji, twórcy kursów i nauczyciele muszą być świadomi różnych oferowanych form prezentowania treści – w tym syntezy mowy (TTS, ang. text to speech), czyli technologii pozwalającej na „odczytywanie” treści tekstowych cyfrowym głosem.

Segment audio jest istotnym i rozwijającym się elementem tej edukacyjnej rewolucji, a obeznane z technologią instytucje wiedzą, jak z tego medium skutecznie korzystać.

W ReadSpeaker jesteśmy specjalistami w dziedzinie technologii głosowych. Rozumiemy, w jakim celu i w jaki sposób umieszczać treści audio w materiałach edukacyjnych. Naszym celem jest pomaganie instytucjom edukacyjnym w zrozumieniu koncepcji treści audio i wykorzystywaniu ich w swojej ofercie edukacyjnej. Aby te cele realizować, stworzyliśmy listę pytań na temat TTS i udźwiękowienia treści edukacyjnych, które padają ze strony różnych instytucji. I co ważniejsze – udzielamy na nie odpowiedzi.

Hear for yourself!

Request a demo

1. W branży technologii edukacyjnych używa się wielu akronimów. Co to jest TTS?

Synteza mowy, czyli TTS (ang. text to speech), pozwala na konwersję treści pisanych na mówione. Nie należy jej mylić z technologią rozpoznawania mowy (ang. speech to text), która przekształca treści mówione w pisemne: systemy do syntezy mowy „odczytują” tekst użytkownikowi generowanym komputerowo głosem.

Dzisiejsze systemy TTS działają w chmurze, pracują na serwerach albo nawet niezależnie na pojedynczym urządzeniach. W zależności od silnika TTS – oprogramowania, które generuje syntetyczną mowę – systemy te mogą obsługiwać praktycznie każdy cyfrowy format tekstu, w tym skany dokumentów drukowanych. Jest to niezwykle pomocne dla osób uczących się, które mają problemy ze wzrokiem oraz osób z trudnościami w czytaniu. Jest też bardzo ważnym narzędziem dla osób uczących się języków obcych – pomaga im przyswajać wyrażenia pisane i mówione w nowym języku.

TTS to jednak nie tylko technologia asystująca: jest to też kompleksowa technologia edukacyjna. W dalszej części tej sekcji FAQ wyjaśniamy, w jaki sposób technologia TTS zapewnia korzyści wszystkim osobom uczącym się, niezależnie od okoliczności. Synteza mowy pozwala osobom dorosłym, które nie mają dużo wolnego czasu, uczyć się podczas wykonywania innych czynności, na przykład gotowania obiadu. Daje też odpocząć od ekranu komputera oczom osób uczących się online. Przede wszystkim jednak TTS daje możliwość wyboru, pozwalając na personalizację procesu nauki według potrzeb i preferencji poszczególnych użytkowników.

2. Czy TTS tworzy po prostu pliki audio?

Tak, silniki syntezy mowy rzeczywiście mogą tworzyć pobieralne pliki audio z treściami mówionymi, zwłaszcza w powszechnie stosowanym formacie MP3. Ale to nie wszystko, na co je stać. Za ich pomocą można też generować mowę bezpośrednio z poziomu aplikacji, przeglądarki internetowej czy systemu zarządzania nauczaniem (LMS).

Na tym się nie kończy – wiele narzędzi TTS oferuje również „prezentację bimodalną”, w której odczytywany fragment tekstu podświetla się na ekranie, dzięki czemu osoby uczące się mogą słuchać treści i czytać je jednocześnie. Technologia syntezy mowy daje się też wykorzystać na wiele innych sposobów – osoby uczące się mogą odsłuchiwać to, co wpisują w dokumentach lub wyszukiwarkach internetowych. Praktycznie wszystkie narzędzia oferujące funkcję mowy wykorzystują technologię TTS do zapewniania swoich kluczowych funkcji.

Technologia edukacyjna oferowana przez firmę ReadSpeaker łączy kompleksowe funkcje TTS z narzędziami do nauki, dając osobom uczącym się możliwość personalizacji sposobu przyswajania nowych wiadomości. Na przykład webReader, chmurowe narzędzie online firmy ReadSpeaker, pozwala osobom uczącym się odsłuchiwać treści w ponad 50 językach – i wybierać spośród ponad 200 naturalnie brzmiących głosów. Tekst zaczyna być odczytywany po wciśnięciu jednego przycisku myszki (lub skrótu klawiszowego), ale można też pobrać plik audio w formacie MP3 do użytku offline.

Narzędzie webReader daje osobom uczącym się wachlarz narzędzi, w tym:

Jednoczesne stosowanie technologii TTS i podświetlania tekstu – webReader podświetla każde odczytywane w danym momencie słowo na ekranie, łącząc wizję z dźwiękiem, co wspomaga rozumienie treści.
Zmiana wielkości tekstu – powiększanie tekstu wyświetlanego na ekranie jednym kliknięciem lub dotknięciem, bez konieczności uruchamiania przy tym odczytu tekstu na głos.
Tryb samego tekstu – włączenie tego trybu powoduje usunięcie obrazów i innych elementów odwracających uwagę i wyświetlanie wyłącznie tekstu do czytania.
Zaczernianie fragmentów tekstu – osoby z trudnościami w czytaniu często sięgają po kartki papieru czy linijki, aby ułatwić sobie skupienie na jednej linijce tekstu. Funkcja zaczerniania fragmentów tekstu dostępna w webReader przenosi te pomoce na ekran urządzenia cyfrowego.
Narzędzia tekstowe – menu kontekstowe pojawiające się po zaznaczeniu fragmentu tekstu umożliwia jego odsłuchanie za pośrednictwem TTS, tłumaczenie wyrazów na inny język lub znalezienie większej liczby informacji na temat opisywanego zagadnienia bez konieczności otwierania kolejnego okna przeglądarki internetowej.

Tak wygląda interfejs użytkownika narzędzia webReader, który obsługuje systemy zarządzania nauczaniem, strony internetowe, aplikacje mobilne i nie tylko.

3. Czym jest prezentacja bimodalna?

Prezentacja bimodalna oznacza przedstawianie informacji w formacie dźwiękowym i wizualnym jednocześnie: daje możliwość jednoczesnego czytania tekstu, słuchania go, a w niektórych przypadkach podświetlania aktualnie odczytywanych wyrazów (i/lub całych zdań).

W przypadku wielu uczniów prezentacja bimodalna poprawia czytanie ze zrozumieniem, zapamiętywanie wiadomości i dekodowanie (proces powiązywania kombinacji liter z głoskami). Korzyści te budują pewność siebie i tworzą bardziej pozytywny obraz czytania, kładąc fundamenty pod proces uczenia się przez całe życie.

Prezentacja bimodalna idzie ramię w ramię z uniwersalnym projektowaniem w edukacji (ang. UDL – Universal Design for Learning), ramą edukacyjną rekomendowaną przez amerykańskie polityki kształcenia, takie jak National Education Technology Plan (Krajowy Plan dla Technologii Edukacyjnych) czy ustawodawstwo takie jak Every Student Succeeds Act (ESSA) (ustawa o sukcesie każdego ucznia). A to prowadzi nas do kolejnego pytania.

4. Czym jest uniwersalne projektowanie w edukacji?

Uniwersalne projektowanie w edukacji to sposób na wyrównanie szans edukacyjnych dla wszystkich osób uczących się i wprowadzenie do środowiska kształcenia elastycznych narzędzi i materiałów w celu spełniania ich potrzeb w lepszym stopniu.

UDL, które jest jednocześnie ramą edukacyjną i zestawem praktycznych rekomendacji, obejmuje Wytyczne Kształcenia podzielone na trzy kategorie:

1. Zaangażowanie

Wytyczne UDL zalecają zapewnianie wielu sposobów angażowania osób uczących się w proces kształcenia, dając jak najwięcej możliwości wyboru i autonomii. To sprawia, że motywacja do nauki utrzymuje się.

2. Reprezentacja

W tym miejscu wracamy do prezentacji bimodalnej. Zgodnie z UDL osoby uczące powinny zapewnić wiele sposobów przyswajania treści edukacyjnych. Obejmuje to możliwość spersonalizowania sposobu prezentowania informacji. Pomaga to osobom uczącym się w przyswajaniu i zapamiętywaniu przekazywanych wiadomości.

3. Działanie i wyrażanie

Chodzi tu o dawanie osobom uczącym się możliwości wyboru sposobu realizacji aktywności edukacyjnych, w tym z wykorzystaniem ruchu ciała, różnych środków przekazu i dostępu do technologii asystujących.

Wszystkie wytyczne UDL łączy jedno – dawanie osobom uczącym się możliwości wyboru. Elastyczny model edukacyjny daje każdej osobie uczącej się pole do znalezienia strategii, która da jej najlepsze rezultaty – a ponieważ każdy z nas jest na swój sposób unikalny, każda strategia będzie inna. I właśnie dlatego potrzebne są rozwiązania takie jak prezentacja bimodalna i odpowiednio dobrane cyfrowe narzędzia do nauki, na przykład synteza mowy.

5. Zawsze mi się wydawało, że technologia syntezy mowy jest przeznaczona dla osób z zaburzeniem widzenia i trudnościami w uczeniu się. To prawda?

Kiedy technologia TTS stała się ogólnodostępna, osoby uczące korzystały z niej głównie po to, aby pomagać osobom z trudnościami w uczeniu się w pokonywaniu problemów z dekodowaniem i skupieniu się na znaczeniu czytanych tekstów. Rozwiązania TTS okazały się również przydatne dla osób mających problemy ze wzrokiem. Nic się w tym obszarze nie zmieniło.

Co więcej, TTS to bardzo skuteczne narzędzie do poprawiania dostępności cyfrowej – kluczowego aspektu, na którym w dobie kształcenia online skupiają się osoby uczące. Złotym standardem w usuwaniu przeszkód w dostępie do informacji dla wszystkich użytkowników treści internetowych są międzynarodowe wytyczne dotyczące dostępności treści internetowych (WCAG – Web Content Accessibility Guidelines). Zgodnie z kryterium sukcesu 3.1.5 wytycznych WCAG tekst musi być łatwy do czytania – poniżej poziomu ponadpodstawowego. Jeśli tak nie jest, należy zapewnić wersję tekstu, która nie będzie wymagać dobrze rozwiniętych umiejętności czytania. Technologia syntezy mowy jest najprostszym sposobem na zastosowanie się do tych (i innych) wymogów wytycznych WCAG.

Wracając jednak do pytania, narzędzia TTS pomagają zarówno uczniom z trudnościami i zaburzeniami, jak i tym bez. Jako że osoby uczące się są dziś przyzwyczajone do wielu różnych sposobów prezentacji treści, dopasowanych do rozmaitych okoliczności i potrzeb, po technologię TTS i pomoce dźwiękowe coraz częściej sięga szeroka gama użytkowników: tych uczących się języków obcych, przyswajających treści w dużych ilościach, robiących kilka rzeczy jednocześnie czy znajdujących się w innych okolicznościach, z którymi mogą mieć do czynienia osoby uczące się.

6. W jaki właściwie sposób słuchanie pomaga w nauce?

Technologia syntezy mowy i prezentacja bimodalna to elementy UDL, które zapewniają wiele elastycznych sposobów na spełnianie potrzeb zróżnicowanej grupy osób uczących się, dając im równe szanse na naukę i odniesienie sukcesu. Prezentacja bimodalna jest wykorzystywana do zwiększania dostępności od kilku lat, ale dopiero teraz osoby zawodowo zajmujące się uczeniem odkrywają jej korzyści dla wszystkich. Skuteczność edukacji bimodalnej w prowadzeniu uczniów do sukcesu została dowiedziona przez wiele badań naukowych. Wskazują one na korzyści bimodalnej prezentacji treści, które obejmują:

lepsze rozumienie tekstu czytanego
lepsze rozpoznawanie słów
lepszy proces przypominania informacji
usprawniony proces dekodowania
bardziej pozytywne podejście do czytania
wydłużenie czasu czytania
lepsza koncentracja i pewniejsze zapamiętywanie informacji podczas czytania
większe skupienie na rozumieniu, a nie na dekodowaniu wyrazów
możliwość czytania zadanych lektur przez dłuższy czas
dokładniejsze wykrywanie błędów w pracach własnych i lepsza umiejętność ich poprawiania
pomoc osobom uczącym się z trudnościami i zaburzeniami w utrzymywaniu się na poziomie grupy rówieśniczej we wszystkich przedmiotach
wyższe poczucie własnej wartości, motywacja i pewność siebie.

7. Czy istnieją dowody naukowe na to, że TTS poprawia efekty kształcenia? Chciał(a)bym mieć pewność, że ta technologia naprawdę pomaga moim podopiecznym.

W obszarze wykorzystywania TTS w kontekstach edukacyjnych przeprowadzono wiele badań. Na przykład:

Wyniki badań przeprowadzonych na Uniwersytecie Barcelońskim wyraźnie pokazują, że TTS jest narzędziem skutecznym w wyższej edukacji.
Z kolei Bruno i wsp. w badaniu z 2021 roku wykazali, że nauczanie bezpośrednie z zastosowaniem narzędzi TTS poprawiło wyniki w zakresie czytania ze zrozumieniem pośród studentów z niepełnosprawnością intelektualną i rozwojową.
W metaanalizie przeprowadzonej w 2019 roku (autorzy: Wood, Moxley, Tighe i Wagner) wykazano, że technologia TTS poprawia wyniki czytania ze zrozumieniem u osób z trudnościami w czytaniu.

Aby zrozumieć procesy neurologiczne zachodzące podczas nauczania multimodalnego z zastosowaniem technologii TTS – oraz poznać wartość uniwersalnego projektowania w edukacji – obejrzyj prezentację dr Trish Trifilo poniżej.

8. Czy słuchanie tekstu nie jest przypadkiem oszukiwaniem?

Przy okazji omawiania technologii edukacyjnej i narzędzi wspomagających rozwój umiejętności czytania często pada pytanie, czy czytanie z wykorzystaniem technologii syntezy mowy można w ogóle nazwać czytaniem. Jak uczniowie mają się nauczyć czytać, jeśli komputer czyta za nich? Co się stanie, jeśli zabierzemy im tę pomoc?

Nie chodzi tu o czynność czytania samą w sobie, ale ilość czasu i energii potrzebną do czytania i to, czy czytający potrafi coś z uzyskaną w ten sposób informacją zrobić. Słowami Michelann Parr, specjalistki ds. syntezy mowy w edukacji:

„Proponuję następujące podejście: nie naszą rolą jest odbieranie czegoś uczniowi, zwłaszcza jeśli pozwala mu to na zaangażowanie i samodzielność… sukces, który uczniowie zaczynają odnosić po wprowadzeniu TTS, jest zdumiewający…”.

Aby uzyskać więcej specjalistycznych informacji na temat stosowania rozwiązań TTS w uczeniu pisania i czytania, przeczytaj nasz szczegółowy wywiad z Parr.

9. Na rynku dostępnych jest wiele darmowych rozwiązań. Może po prostu użyję któregoś z nich?

Technologia TTS w praktyce dowiodła swojej skuteczności w pomaganiu rozmaitym grupom osób uczących się, ale należy mieć tu na uwadze kilka zmiennych, które mogą wpłynąć na uzyskiwane wyniki. W pierwszej kolejności trzeba spojrzeć na jakość syntetycznego głosu: jeśli jest niska, prowadzi to do przykrych doświadczeń edukacyjnych, co skutkuje rzadszym stosowaniem technologii i, co za tym idzie, uniemożliwia uczniom i nauczycielom uzyskanie pełnych korzyści z TTS. Darmowe rozwiązania TTS nie oferują najlepszej jakości w tym zakresie, ponieważ ich twórcy nie mogą sobie pozwolić na ciągłe inwestowanie w rozwój technologiczny.

Firma ReadSpeaker cały czas się rozwija. Nasze autorskie modele uczenia maszynowego pozwalają nam na tworzenie ciepłych głosów syntetycznych łudząco podobnych do naturalnych – a takie preferują odbiorcy. Badania pokazują, że korzystanie z dostępnych dziś głosów TTS wysokiej jakości prowadzi nawet do lepszych efektów kształcenia niż poleganie na głosach ludzkich czy na starszych silnikach syntezy mowy.

Poza tym narzędzia TTS firmy ReadSpeaker zawierają dodatkowe funkcje wspierające rozwój czytania – na przykład te, które omówiono w odpowiedzi na drugie pytanie w artykule (podświetlanie odczytywanego fragmentu, zmiana wielkości tekstu, zaczernianie fragmentów tekstu itd.). Darmowe narzędzia TTS są zwykle dość „prymitywne” – nie oferują użytkownikom tylu możliwości. Wiele z nich obsługuje jedynie konkretne rodzaje treści. Narzędzia firmy ReadSpeaker radzą sobie natomiast z treściami online, dokumentami Microsoft Word, plikami w formacie PDF, e-bookami i nie tylko.

Rozwiązania TTS, która dają świetne rezultaty, nie muszą być jednak drogie. Dostarczanie technologii syntezy mowy jest zaskakująco przystępnym cenowo przedsięwzięciem, zarówno na poziomie pojedynczych osób uczących się, jak i całych kampusów.

10. Integracja tej technologii z treściami musi być trudnym zadaniem. Jak uzupełnić wszystkie moje treści o syntezę mowy?

Wdrożenie i użytkowanie rozwiązań syntezy mowy, na przykład pakietu udźwiękowionych narzędzi edukacyjnych firmy ReadSpeaker, jest zaskakująco proste. Jest również przystępne cenowo. Czasy, w których wybierać można było tylko pomiędzy sztucznie brzmiącymi głosami a aktorami głosowymi i studiami nagrań, mamy już dawno za sobą. Technologia dynamicznego wytwarzania mowy oparta na chmurze umożliwia udźwiękowienie treści edukacyjnych zaraz po ich udostępnieniu. A to nie wszystko: ciągle rozwijające się zaplecze technologii syntezy mowy daje możliwość generowania naturalnie brzmiących głosów wysokiej jakości.

Integracje tej technologii często opierają się na zwyczajnych wtyczkach lub linijkach kodu, których wdrożenie i utrzymanie wymaga minimalnej liczby roboczogodzin. Większość najbardziej liczących się dostawców systemów LMS oferuje konkretne integracje, które wystarczy włączyć.

Dzięki temu instytucje edukacyjne mogą w prosty sposób włączyć w oferowane przez siebie usługi prezentację bimodalną. Technologia TTS umożliwia udźwiękowienie kursów, lekcji, testów, kartkówek, procesu oceniania, lektur i innych treści tekstowych, a uczniowie mogą słuchać materiału, śledząc jednocześnie tekst podświetlany na ekranie, co przykuwa ich uwagę do treści edukacyjnych i pozwala na przyswajanie nowych wiadomości na wiele sposobów.

11. Nie jest to kolejny gadżet technologiczny, który niedługo zostanie zastąpiony czymś innym?

Technologia syntezy mowy jest wykorzystywana do udźwiękowiania treści na całym świecie, nie tylko w kontekstach kształcenia. Liderzy ideowi rozumieją znaczenie mowy i wykorzystują ją wszędzie, od rządowych stron internetowych po korporacje.

Innowacyjne instytucje edukacyjne i wydawnictwa korzystają z technologii TTS, aby oferować innowacyjne sposoby przyswajania wiadomości. Instytucje takie to na przykład:

Technologia firmy ReadSpeaker pomaga jej użytkownikom w przyciąganiu i utrzymywaniu osób uczących się przy jednoczesnym ulepszaniu odbioru procesów edukacyjnych i poprawianiu efektów kształcenia.

Przyłącz się do nas. Przygotujemy dla Ciebie darmową, spersonalizowaną demonstrację, żeby pokazać Ci, że udźwiękowienie oferowanych przez Twoją instytucję usług to prosta rzecz.

Odpowiedzieliśmy na wszystkie Twoje pytania? Jeśli nie, skontaktuj się z nami telefonicznie (+44 (0)7483 236 115) lub mailowo (contact@readspeaker.com).

Dowiedz się więcej tutaj.

Ogólne

Dwie kobiety pracujące przy komputerze w środowisku pracy.

Głos jako most: ponowne przemyślenie SCORM w erze nauki in... lutego 11, 2026 by Caroline Poynton

Dowiedz się, jak głos unowocześnia SCORM, czyniąc istniejące kursy dostępnymi, mobilnymi, interaktywnymi i wielojęzycznymi.

Dostępność

Prosty przewodnik dotyczący dostępności: zrozumienie wyty... sierpnia 9, 2024 by Amy Foxwell

W przypadku wytycznych dotyczących dostępności treści internetowych (WCAG) ciężko jest stwierdzić, od czego zacząć. Ten prosty przewodnik służy pomocą.

Edukacja

Technologia asystująca a ocena oparta na technologii sierpnia 9, 2024 by Amy Foxwell

EdTech zmienia sposób oceniania w edukacji. Jak sprawić, aby wszyscy uczniowie skorzystali na tym w równym stopniu? Posłuchaj ekspertów.