Het gebruik van voice interfaces als alternatief voor tekst interfaces is populair onder marketeers. Onder hen heerst het idee dat voice interfaces digitale communicatie menselijker maken en dat de persuasieve boodschappen die via zo’n voice interace worden gecommuniceerd overtuigender zijn. Maar is dat wel zo?
WAAR GAAT DEZE BLOG OVER?
Voice assistants worden meer en meer geïmplementeerd door marketeers, onder andere gedreven door snelle ontwikkelingen rondom conversational AI. Er wordt erg veel geïnvesteerd in voice AI, onder andere om de stemmen die gebruikt worden in voice interfaces menselijker te maken. Een onderliggende overtuiging hierbij is dat stemmen die als menselijk worden ervaren ook beter in staat zijn gebruikers te overtuigen.
Er is al veel onderzoek over hoe chatbots en virtuele assistenten menselijker gemaakt kunnen worden. Empirisch onderzoek dat expliciet de overtuigingskracht van tekst en voice assistenten vergelijkt is echter zeer schaars (uitzonderingen zijn een studie uit 2022 en een uit 2024) en we weten vooral nog erg weinig over waarom stemmen die als menselijker worden ervaren overtuigender zouden zijn.
Er zijn verschillende manieren waarop stemmen menselijk gemaakt worden; wij focusten in ons onderzoek op het gebruik van passende prosodie: het ritme, de klemtoon en de intonatie van de stem bij het uitspreken van een zin of zinsdeel. Met passende prosodie kan een stem gebruikers het gevoel geven dat er daadwerkelijk gereageerd wordt op de input die door de gebruiker werd gegeven (zie box 1).
HET ONDERZOEK
Met een interdisciplinair team van communicatiewetenschappers, computerwetenschappers en een computationeel letterkundige hebben we drie versies van een virtuele assistent ontwikkeld waarmee we een experiment uitvoerden. Deelnemers voerden een gesprek van 6 minuten met een assistent die hen hielp bij het kiezen van een digitale camera. Ze voerden dit gesprek met één van de drie versies die we ontwikkelden: met een tekst assistent, met een assistent die gebruik maakte van een standaard synthetische stem (Google’s Text- to-Speech engine met de mannelijke stem in US Engels), of met een assistent waarbij we de standaard stem heel subtiel hadden aangepast zodat het gebruikte ritme, de klemtoon en de intonatie pasten bij de informatie status van de gebruiker (zie box voor meer uitleg). Na de interactie werd gemeten hoe menselijk gebruikers de assistent vonden, in hoeverre ze het idee hadden dat de aanbeveling speciaal voor hen was en hun attitude ten opzichte van het aanbevolen merk.
DE RESULTATEN
Ons onderzoek liet zien dat:
- Een voice assistent die gebruik maakt van een stem met passende prosodie is overtuigender dan een tekst assistent.
- Dat kan worden verklaard doordat de assistent als menselijker wordt gezien.
- Doordat een stem als menselijker wordt ervaren, hebben mensen het gevoel dat een boodschap speciaal voor hen bedoeld is.
- We vonden geen verschil tussen tekst en de standaard synthetische stem, alleen tussen de tekst assistent en de assistent met passende prosodie. Een passend ritme, klemtoon en intonatie kan dus gebruikt worden om een synthetische stem een bepaalde kwaliteitsnorm te laten behalen.
TAKE-AWAYS VOOR MARKETEERS
- Het gebruik van voice interfaces kan leiden tot meer overtuigende communicatie dan het gebruik van tekst interfaces, maar dat is niet automatisch het geval.
- Het is daarvoor belangrijk om een menselijke stem te gebruiken, bv. met prosodie die is afgestemd op wat de gebruiker inbrengt in de interactie.
- Bij het gebruik van een menselijke stem ervaren mensen de communicatie als meer gericht op hen als individu.
- Dit zorgt er vervolgens voor dat gebruikers positiever zijn over het merk dat wordt gepromoot.
- Het is essentieel dat features die geïmplementeerd worden om communicatie menselijker te maken, getest worden met echte gebruikers om te toetsen of aan hun verwachtingen wordt voldaan.
MEER WETEN?
Deze blog is gebaseerd op onderstaande artikel:
Voorveld, Pantelli, Schirris, Ischen, Kanoulas en Lentz is getiteld: Examining the persuasiveness of text and voice agents: prosody aligned with information structure increases human-likeness, perceived personalisation and brand attitude. Behaviour & Information Technology.
LINK: https://www.tandfonline.com/doi/pdf/10.1080/0144929X.2024.2420871
Box 1. Een voorbeeld van prosodie die is aangepast aan de informatiestatus van de gebruiker
Prosodie is het gebruik van hoorbare taalelementen die groter zijn dan een simpele klank. Met de prosodische elementen in een taal kun je al sprekend verschijnselen maken zoals intonatie, toon, klemtoon, luidheid en ritme (bron: Taalcaleidoscoop) . Een uitgebreide uitleg vind je hier.
In het experiment werd prosodie zo gemanipuleerd dat die paste bij de informatie status van de gebruiker: ging het om nieuwe of reeds bekende informatie? Manipulaties waren erg subtiel, zoals te zien en horen in dit voorbeeld:
A. Spraak gegenereerd van tekst, met standaard prosodie (mannelijke Google stem in US Engels)
B. Spraak gegenereerd van tekst, met prosodie die past bij de informatie status van de gebruiker
In dit figuur wordt de toonhoogte weergegeven over de tijd. Afbeelding A (zonder manipulatie) toont een accent op ‘preference’, weergegeven als een stijging en daling van de toonhoogte. Omdat de voorkeuren van de gebruiker al een onderwerp van gesprek is, komt de zin niet overeen met nieuwe informatie. In afbeelding B (met handmatige manipulatie) is het accent op ‘preference’ verwijderd. Bovendien is er een accent toegevoegd op de lettergreep ‘brand’, omdat het zingedeelte ‘a certain brand of camera’ nieuwe informatie is binnen de vraag; het is nieuw voor de luisteraar dat de vraag over cameramerken gaat.