Go to Menu

The importance of voice in communication

maart 28, 2022 by Maurice van der Koelen

Het belang van de menselijke stem in communicatie? Nou, we communiceren door te spreken en we spreken met onze stem. Makkelijke vraag, makkelijk antwoord. Simpel, toch?

Klopt, maar dat is niet het hele verhaal. De menselijke stem is namelijk (minstens) twee dingen: een hoorbaar communicatiemiddel én een weerspiegeling van de identiteit van de spreker. Om zowel ideeën als specifieke eigenheid over te brengen, bevat de stem drie soorten informatie:

  1. Taalkundige informatie. De inhoud van wat we zeggen: woorden en zinnen.
  2. Parataal. Verbale communicatie (maar geen woorden of tekst), die de spreker min of meer bewust hanteert. Denk aan gezichtsuitdrukking, lichaamstaal, toonhoogte, spreektempo en volume.
  3. Niet-taalkundige informatie. Signalen die je als spreker afgeeft, maar waar je geen invloed op hebt. Je leeftijd, geslacht en gezondheid bijvoorbeeld. Maar ook hoe je je op dat moment voelt.

De laatste twee soorten informatie onthullen onze identiteit. Zo kunnen specialisten bij hun onderzoek van een misdrijf veel uit de stem van een verdachte opmaken: van geslacht, leeftijd en waar iemand vandaan komt, tot zijn postuur en zelfs beroep. Als je een stem hoort, maken je hersens daar een plaatje bij – zeg maar een portret. En als het om de stem van jouw merk gaat, heeft de kwaliteit van dat portret absoluut gevolgen voor jouw business.

Het bereik van je merk vergroten door pure stemkracht? Wij kunnen helpen. Ontdek de custom voices van ReadSpeaker AI.


Het belang van toon en toonhoogte in merkcommunicatie

In 1995, researchers examined the effect of voice characteristics on their sales success in 21 direct sales professionals . Result: ‘If you look at the output of a commercial statement, how it is proclaimed may be just as important as what is said.’ The research showed that those who spoke a little faster and with shorter pauses – and emphasized the end of sentences – sold more products.

Ook al is dit maar één studie binnen een specifieke context, het wijst toch op een rechtstreeks verband tussen afwisseling in toonhoogte en verkoopresultaten. Maar variatie in toonhoogte is niet het enige kenmerk van de stem met een effect op hoe klanten een boodschap ervaren. Iemands toon is een optelsom; een complexe combinatie van paralinguïstische en niet-taalkundige kenmerken, waarin ook de stemming en bedoeling van de spreker een duidelijke rol spelen. Zoals we eerder al aangaven: het belang van ‘tone of voice’ in klantcommunicatie valt niet te onderschatten.

Another important aspect of the customer experience is recognizability; the way a listener associates a specific voice with a known, self-contained personality. We (re)know speakers – and therefore also brands – thanks to their voice. That is precisely why it is so important for the interaction with a brand that the conversion of text to speech via digital channels leads to a unique and distinctive sound . SoundHound ’s Andrew Richards warns brands not to rely on generic text-to-speech voices. “Don’t let a standard digital voice define your brand identity,” says Richards. “You then run the risk of sounding like everyone else, and therefore of a mismatch between how you want to be seen and how your brand is really experienced.”

We begonnen deze blog met een discussie over het directe commerciële belang van de stem. In verkoop dus. Maar voor elke vorm van klantcontact heeft zorgvuldig stemgebruik veel meer invloed dan op het salesteam alleen. Het kan je doelgroep aanzienlijk verbreden, zeker als je bij alle geschreven informatie ook een gesproken versie aanbiedt.


De stem als toegankelijkheidstool voor communicatie

Wil je een beter beeld krijgen van het belang van spraak in communicatie, sta dan eens stil bij het alternatief: schrift. Om tekst te kunnen lezen, zul je er toch echt naar moeten kijken. Dat wordt een lastig verhaal voor de 253 miljoen blinden, matig- en slechtzienden op deze wereld. Tenzij de tekst wordt omgezet in spraak. Een braille-hulpmiddel kan uitkomst bieden. Maar niet iedereen die blind is of een visuele beperking heeft, beheerst dit schrift. In de Verenigde Staten is dat bijvoorbeeld naar schatting slechts zo’n 10%. Hoewel over dit getal discussie bestaat, houdt niemand het op 100%. Kortom: er blijven altijd meer dan genoeg mensen over die afhankelijk zijn van een tool die geschreven tekst – gedrukt of online – voor ze transformeert in spraak.

Zogenaamde ‘schermlezers’ – software die digitale tekst in (digitale) spraak omzet – nemen trouwens ook obstakels weg voor mensen die wél goed zien. In een onderzoek uit 2021 gaf 3,2% van de gebruikers van zo’n schermlezer aan dat ze kampten met cognitieve of leerproblemen, 2,4% had een motorische beperking en 7,7% liet weten nergens last van te hebben. Als je erover nadenkt, dan is die laatste uitkomst eigenlijk helemaal niet zo vreemd. Wie een artikel leest, moet zijn ogen namelijk op het scherm of een pagina houden. Maar krijg je diezelfde tekst voorgelezen door een digitale stem, dan kun je ondertussen prima iets anders doen: koken, autorijden of wandelen. Tekst-naar-spraak (TTS) vergroot dus in alle gevallen het bereik voor geschreven tekst. Een lastige maar belangrijke opgave, die uiteindelijk het meeste succes oplevert als je neurale stemmen van topkwaliteit inzet. Stemmen waar gebruikers met plezier naar luisteren, zoals die van ReadSpeaker.

De vraag is alleen: wanneer heb je het over topkwaliteit? Als het resultaat makkelijker te begrijpen is? Of als het natuurlijker en minder robotachtig klinkt? Of is de beste digitale stem, de stem die het meeste als een mens klinkt? Het antwoord hangt – uiteraard – van de context af.


Kwaliteitsbeoordeling bij tekst-naar-spraak

Onderzoekers hanteren meerdere criteria om de kwaliteit van digitale stemmen vast te stellen. Sommige subjectief, andere objectief. En vanuit verschillende aandachtspunten, zoals verstaanbaarheid en authenticiteit. Een van de meestgebruikte normen om synthetische spraak kwalitatief te beoordelen, is MOS (mean opinion score). Dit is het gemiddelde van meerdere waarderingen door luisteraars, uitgedrukt op een vijfpuntsschaal. Spraakwetenschappers komen tot deze scores op basis van de gemiddelden uit peilingen onder grote groepen luisteraars over de stemkwaliteit tijdens een test. Zo staat een MOS-bereik tussen 3,6 en 4,0 voor een stem waarover ‘sommige luisteraars tevreden waren’. Een score tussen 4,0 en 4,4 duidt op ‘algemene tevredenheid’, terwijl elke uitkomst tussen 4,3 en 5,0 een ‘zeer tevreden’ luisterpubliek vertegenwoordigt. Toevallig, of misschien juist niet: VoIP-gesprekken (Voice over IP) krijgen doorgaans een 3,5 tot 4,2 op de MOS-schaal, waar de digitale stemmen van ReadSpeaker AI regelmatig een 4,0 of hoger scoren.

Je kunt de kwaliteit van tekst-naar-spraak ook op een andere manier bepalen, namelijk door de output van TTS-stemmen te vergelijken met hifi-opnames van menselijke sprekers. En dat is precies wat we bij ReadSpeaker AI onlangs in een luistertest hebben gedaan. Wat bleek? Veel deelnemers konden onze TTS-stemmen niet onderscheiden van tekst die door mensen was ingesproken. De uiteindelijke MOS-score van de neurale stemmen van ReadSpeaker lag slechts 0,2 punt lager dan die van de opnamen van menselijk stemgeluid.

Benieuwd naar jouw score? Doe de test!

Gezien het belang van voice in communicatie en de groei van voice commerce, loont het absoluut om te investeren in de beste digitale stemmen die de huidige markt te bieden heeft. Neem dus vandaag nog contact op met ReadSpeaker AI.

Related articles
Gebruik vandaag nog tekst-naar-spraak

Maak je producten aantrekkelijker met onze spraakoplossingen.

Contact