Het belang van de menselijke stem in communicatie? Nou, we communiceren door te spreken en we spreken met onze stem. Makkelijke vraag, makkelijk antwoord. Simpel, toch?

Klopt, maar dat is niet het hele verhaal. De menselijke stem is namelijk (minstens) twee dingen: een hoorbaar communicatiemiddel én een weerspiegeling van de identiteit van de spreker. Om zowel ideeën als specifieke eigenheid over te brengen, bevat de stem drie soorten informatie:

  1. Taalkundige informatie. De inhoud van wat we zeggen: woorden en zinnen.
  2. Parataal. Verbale communicatie (maar geen woorden of tekst), die de spreker min of meer bewust hanteert. Denk aan gezichtsuitdrukking, lichaamstaal, toonhoogte, spreektempo en volume.
  3. Niet-taalkundige informatie. Signalen die je als spreker afgeeft, maar waar je geen invloed op hebt. Je leeftijd, geslacht en gezondheid bijvoorbeeld. Maar ook hoe je je op dat moment voelt.

De laatste twee soorten informatie onthullen onze identiteit. Zo kunnen specialisten bij hun onderzoek van een misdrijf veel uit de stem van een verdachte opmaken: van geslacht, leeftijd en waar iemand vandaan komt, tot zijn postuur en zelfs beroep. Als je een stem hoort, maken je hersens daar een plaatje bij – zeg maar een portret. En als het om de stem van jouw merk gaat, heeft de kwaliteit van dat portret absoluut gevolgen voor jouw business.

Het bereik van je merk vergroten door pure stemkracht? Wij kunnen helpen. Ontdek de custom voices van ReadSpeaker AI.


Het belang van toon en toonhoogte in merkcommunicatie

In 1995 namen onderzoekers bij 21 direct sales-professionals het effect van stemkenmerken op hun verkoopsucces onder de loep. Uitkomst: ‘Kijk je naar de output van een commerciële uiting, dan is hoe deze wordt verkondigd mogelijk net zo belangrijk als wat er wordt gezegd.’ Het onderzoek toonde aan dat wie iets sneller en met kortere pauzes sprak – en het eind van zinnen beklemtoonde – meer producten verkocht.

Ook al is dit maar één studie binnen een specifieke context, het wijst toch op een rechtstreeks verband tussen afwisseling in toonhoogte en verkoopresultaten. Maar variatie in toonhoogte is niet het enige kenmerk van de stem met een effect op hoe klanten een boodschap ervaren. Iemands toon is een optelsom; een complexe combinatie van paralinguïstische en niet-taalkundige kenmerken, waarin ook de stemming en bedoeling van de spreker een duidelijke rol spelen. Zoals we eerder al aangaven: het belang van ‘tone of voice’ in klantcommunicatie valt niet te onderschatten.

Een ander belangrijk aspect van de klantbeleving is herkenbaarheid; de manier waarop een luisteraar een specifiek stemgeluid associeert met een bekende, opzichzelfstaande persoonlijkheid. We (her)kennen sprekers – en dus ook merken – dankzij hun stem. Juist daarom is het zo belangrijk voor de interactie met een merk dat de omzetting van tekst naar spraak via digitale kanalen leidt tot een uniek en onderscheidend geluid. Andrew Richards van SoundHound waarschuwt merken dan ook niet te vertrouwen op generieke tekst-naar-spraakstemmen. ‘Laat een standaard digitale stem niet de identiteit van je merk bepalen,’ zegt Richards. ‘Je loopt dan het risico te klinken zoals iedereen klinkt, en dus op een mismatch tussen hoe je gezien wil worden en hoe je merk écht wordt ervaren.”

We begonnen deze blog met een discussie over het directe commerciële belang van de stem. In verkoop dus. Maar voor elke vorm van klantcontact heeft zorgvuldig stemgebruik veel meer invloed dan op het salesteam alleen. Het kan je doelgroep aanzienlijk verbreden, zeker als je bij alle geschreven informatie ook een gesproken versie aanbiedt.


De stem als toegankelijkheidstool voor communicatie

Wil je een beter beeld krijgen van het belang van spraak in communicatie, sta dan eens stil bij het alternatief: schrift. Om tekst te kunnen lezen, zul je er toch echt naar moeten kijken. Dat wordt een lastig verhaal voor de 253 miljoen blinden, matig- en slechtzienden op deze wereld. Tenzij de tekst wordt omgezet in spraak. Een braille-hulpmiddel kan uitkomst bieden. Maar niet iedereen die blind is of een visuele beperking heeft, beheerst dit schrift. In de Verenigde Staten is dat bijvoorbeeld naar schatting slechts zo’n 10%. Hoewel over dit getal discussie bestaat, houdt niemand het op 100%. Kortom: er blijven altijd meer dan genoeg mensen over die afhankelijk zijn van een tool die geschreven tekst – gedrukt of online – voor ze transformeert in spraak.

Zogenaamde ‘schermlezers’ – software die digitale tekst in (digitale) spraak omzet – nemen trouwens ook obstakels weg voor mensen die wél goed zien. In een onderzoek uit 2021 gaf 3,2% van de gebruikers van zo’n schermlezer aan dat ze kampten met cognitieve of leerproblemen, 2,4% had een motorische beperking en 7,7% liet weten nergens last van te hebben. Als je erover nadenkt, dan is die laatste uitkomst eigenlijk helemaal niet zo vreemd. Wie een artikel leest, moet zijn ogen namelijk op het scherm of een pagina houden. Maar krijg je diezelfde tekst voorgelezen door een digitale stem, dan kun je ondertussen prima iets anders doen: koken, autorijden of wandelen. Tekst-naar-spraak (TTS) vergroot dus in alle gevallen het bereik voor geschreven tekst. Een lastige maar belangrijke opgave, die uiteindelijk het meeste succes oplevert als je neurale stemmen van topkwaliteit inzet. Stemmen waar gebruikers met plezier naar luisteren, zoals die van ReadSpeaker AI.

De vraag is alleen: wanneer heb je het over topkwaliteit? Als het resultaat makkelijker te begrijpen is? Of als het natuurlijker en minder robotachtig klinkt? Of is de beste digitale stem, de stem die het meeste als een mens klinkt? Het antwoord hangt – uiteraard – van de context af.


Kwaliteitsbeoordeling bij tekst-naar-spraak

Onderzoekers hanteren meerdere criteria om de kwaliteit van digitale stemmen vast te stellen. Sommige subjectief, andere objectief. En vanuit verschillende aandachtspunten, zoals verstaanbaarheid en authenticiteit. Een van de meestgebruikte normen om synthetische spraak kwalitatief te beoordelen, is MOS (mean opinion score). Dit is het gemiddelde van meerdere waarderingen door luisteraars, uitgedrukt op een vijfpuntsschaal. Spraakwetenschappers komen tot deze scores op basis van de gemiddelden uit peilingen onder grote groepen luisteraars over de stemkwaliteit tijdens een test. Zo staat een MOS-bereik tussen 3,6 en 4,0 voor een stem waarover ‘sommige luisteraars tevreden waren’. Een score tussen 4,0 en 4,4 duidt op ‘algemene tevredenheid’, terwijl elke uitkomst tussen 4,3 en 5,0 een ‘zeer tevreden’ luisterpubliek vertegenwoordigt. Toevallig, of misschien juist niet: VoIP-gesprekken (Voice over IP) krijgen doorgaans een 3,5 tot 4,2 op de MOS-schaal, waar de digitale stemmen van ReadSpeaker AI regelmatig een 4,0 of hoger scoren.

Je kunt de kwaliteit van tekst-naar-spraak ook op een andere manier bepalen, namelijk door de output van TTS-stemmen te vergelijken met hifi-opnames van menselijke sprekers. En dat is precies wat we bij ReadSpeaker AI onlangs in een luistertest hebben gedaan. Wat bleek? Veel deelnemers konden onze TTS-stemmen niet onderscheiden van tekst die door mensen was ingesproken. De uiteindelijke MOS-score van de neurale stemmen van ReadSpeaker lag slechts 0,2 punt lager dan die van de opnamen van menselijk stemgeluid.

Benieuwd naar jouw score? Doe de test!

Gezien het belang van voice in communicatie en de groei van voice commerce, loont het absoluut om te investeren in de beste digitale stemmen die de huidige markt te bieden heeft. Neem dus vandaag nog contact op met ReadSpeaker AI.