Q&A mit dem Entwicklungsteam von ReadSpeaker

Das ReadSpeaker-Team zeichnet sich durch seine Leidenschaft für Innovationen bei der Umwandlung von Text in Sprache aus. An dieser Stelle erhalten Sie einige Insider-Informationen von unserem brillanten Entwicklungsteam. Wir hoffen, dass Sie Freude an diesem Q&A mit Marcel de Korte über mehrsprachige neuronale Text-to-Speech-Konvertierung auf der Grundlage sprachübergreifender Modellierungstechnologe von ReadSpeaker haben.

Warum ist dieses Thema wichtig?

In der Weltwirtschaft von heute sind die Wettbewerber mit immer komplexeren Bedingungen konfrontiert. Wer international präsent ist, muss Informationen präzise und auf ansprechende Weise an Zielpersonen übermitteln, die eine Vielzahl von Sprachen sprechen.

Dank hochwertigen Sprachlösungen und sprachgestützten Anwendungen ist die Kommunikation mit Verbrauchern und Kollegen in den letzten Jahren einfacher geworden. Da aber die meisten synthetischen (und eben auch die meisten menschlichen) Stimmen nur eine oder zwei, in seltenen Fällen auch drei Sprachen fließend sprechen, muss auf unterschiedliche Text-to-Speech-Stimmen zurückgegriffen werden. Eine Kommunikation mit nur einer Stimme in mehreren Sprachen ist in der Regel nicht möglich.

Was macht ReadSpeaker in diesem Bereich?

Bei ReadSpeaker arbeiten wir zurzeit daran, den Kunden die Lösung der eben dargelegten Probleme zu erleichtern. Dazu entwickeln wir mithilfe unserer eigenen mehrsprachigen Modellierungstechnologie eine sprachübergreifende Funktionalität. Auf diese Weise soll erreicht werden, dass Organisationen nur mit einer einzigen Stimme kommunizieren können, die eine Vielzahl von Sprachen auf Muttersprachenniveau spricht.

Aus unserem umfassenden Angebot an Stimmen sollen die Kunden dann genau die auswählen können, deren Merkmale am besten zum Unternehmen oder zur Organisation passen. Die Auswahl einer Stimme ist immer subjektiv. Deshalb legen wir Wert auf ein möglichst breites Angebot.

Wie können Marken und Organisationen mehrsprachige Text-to-Speech-Lösungen optimal nutzen?

Mithilfe unserer sprachübergreifenden Funktionalität können wir Stimmen so gestalten, dass sie mehrere von ReadSpeaker angebotene Sprachen sprechen. Die Reaktionen, die wir dazu erhalten haben, zeigen, dass mehrsprachige Stimmen vor allem für Kunden relevant sind, die über die Sprachschnittstelle sofort erkannt werden möchten.

Noch mehr Vorteile bietet eine Custom Voice, die exklusiv für die jeweilige Marke oder Corporate Identity designt wurde – und außerdem mehrsprachig ist.

Welche Technologie liegt dem zugrunde?

Nun, um verstehen zu können, wie das funktioniert, ist ein Blick auf den normalen Entstehungsprozess von neuronalen Text-to-Speech-Lösungen hilfreich. Für gewöhnlich nutzen wir Deep Neural Networks (DNNs), um digitale Stimme zu erschaffen, die kaum von menschlichen Stimmen zu unterscheiden sind. Den Anfang bildet dabei ein sprachspezifisches Skript. Damit erstellen wir eine Reihe von Text-Sprach-Kombinationen für einen bestimmten Sprecher. Dann wird der Text in eine linguistische Darstellung der betreffenden Sprache umgewandelt. Anschließend erstellen wir auf der Grundlage eines DNN ein Modell, um zu verstehen, wie die neuronale Text-to-Speech-Engine Texte in die Sprechweise einer bestimmten Stimme umsetzen muss.

Bei dieser mehrsprachigen Modellierung erweitern wir also das DNN-Modell um linguistische Darstellungen für jede Sprache. Wenn das geschehen ist, „lernt“ unser Modell, wie diese Darstellungen für jede einzelne Sprache in Gesprochenes umzuwandeln sind.

Und weil es unser Ziel ist, dass die Identität der Sprechers auch in anderen Sprachen erhalten bleibt, versuchen wir, diese Identität – also die stimmlichen Eigenheiten – von den linguistischen Aspekten zu lösen. Wenn die verschiedenen Stimmebenen voneinander getrennt wurden, kann jede Sprecher-Sprach-Kombination aus den vorhandenen Daten synthetisiert werden, indem die stimmlichen Eigenheiten des Sprechers auf die linguistischen Merkmale anderer Sprachen übertragen werden.

Beispiele für mehrsprachige neuronale Text-to-Speech-Konvertierung

Bei den nachstehenden Beispielen handelt es sich um Prototypen für mehrsprachige Stimmen, die mit der sprachübergreifenden Funktionalität von ReadSpeaker entstanden sind. Sie werden hören, dass die stimmlichen Eigenheiten unabhängig von der Sprache erhalten bleiben.

SpracheAMEBREDUTESPFREGER
Muttersprachlerin
Zielstimme
Alice
Ilse
Lola
Elise
Lena
Muttersprachler
Zielstimme
Sophie
Sophie
Sophie
Sophie
Sophie
Sophie
Klicken Sie auf die Vorlese-Buttons, um die weibliche Stimme Sophie in verschiedenen Sprachen zu hören.
SpracheAMEBREDUTESPFREGER
Muttersprachlerin
Zielstimme
Hugh
Alex
Manuel
Benoît
Max
Muttersprachler
Zielstimme
James
James
James
James
James
James
Klicken Sie auf die Vorlese-Buttons, um die männliche Stimme James in verschiedenen Sprachen zu hören.

Wir hoffen, dass diese Einführung in unsere mehrsprachigen neuronalen Text-to-Speech-Stimmen informativ für Sie war. Wenn Sie mehr darüber erfahren möchten, welche Impulse DNN-Stimmen von ReadSpeaker Ihrem Business geben können, nehmen Sie am besten noch heute Kontakt mit ReadSpeaker auf.

*Besonderer Dank geht an Wonsuk Jun für die Entwicklung der Prototypenbeispiele.