Test spraakherkenningsapps: apps herkennen spraak slechter dan normaalhorenden

18 maart 2022
Auteur: Rene van der Wilk
Leestijd: 7 min

Uit een test van de spraakherkenningsapps AVA, Earfy, Live transcribe en Speechy, blijkt dat de apps spraak slechter herkennen dan normaalhorenden. Om de apps te vergelijken gebruikten onderzoekers van het Radboudumc en Pento Audiologisch Centrum audiologische spraaktests. Ze gebruikten daarvoor tests met losse woordjes in stilte, cijfers in ruis, maar ook tests die de verstaanbaarheid van spraak meten met zinnen (in stilte en ruis). De apps haalden in stilte een score die overeenkomt met die van slechthorenden met een matig gehoorverlies. In achtergrondlawaai deden ze het nog een stuk slechter.

test spraakherkenningsapps speechy earfy ava live transcribe

In silte slecht, in rumoer nog slechter

Uit het onderzoek blijkt dat de apps in stilte op een niveau scoren dat overeenkomt met dat van slechthorenden met een matig gehoorverlies. Zodra de apps geconfronteerd werden met spraak én achtergrondlawaai, deden ze het nog een stuk slechter: ze scoorden minder dan de meeste zeer ernstig slechthorenden met een hoortoestel en vergelijkbaar met mensen met een cochleair implantaat. Veel ernstig slechthorenden die gebruik maken van een hoortoestel of een cochleair implantaat kunnen in de praktijk toch profiteren van de geteste spraakherkenningsapps. Met de resultaten van het onderzoek is aardig te voorspellen wie al dan niet baat kunnen hebben van de apps. De geteste spraakherkenningsapps verschilden qua score niet heel veel van elkaar.

Automatische spraakherkenning

Met automatische spraakherkenning wordt spraak in tekst omgezet. De werking van de techniek is in stilte inmiddels geavanceerd en accuraat. Dat is het resultaat van artificiële intelligentie, ‘deep learning’, het gebruik van berekeningen in de Cloud en de vele data die beschikbaar zijn om van te leren. De techniek is beschikbaar op computers, tablets en smartphones. Betaalde spraakherkenningssoftware is al sinds het eind van de vorige eeuw op de markt. Een bekende naam is Dragon NaturallySpeaking.

Op smartphones, tablets en computers wordt ook spraakherkenning gebruikt om commando’s uit te voeren. Denk daarbij aan Siri op Apple apparaten en de Google Assistent die te vinden is op Android apparaten. Daarnaast wordt spraakherkenning gebruikt om verslagen van vergaderingen te maken en lessen of colleges om te zetten in tekst. Inmiddels is met de techniek eveneens automatische ondertiteling voor YouTube filmpjes te genereren (die achteraf dan wel gecorrigeerd moeten worden). Ook wordt vandaag de dag spraakherkenningssoftware ingezet om realtime ondertiteling bij online vergaderingen te verzorgen.

Realistische schatting prestatie spraakherkenningsapps nodig

Op grond van de zogenaamde Word Error Rate (WER) claimen verschillende spraakherkenningssystemen dat ze spraak net zo goed kunnen herkennen als goedhorenden. De WER wordt berekend door het totaal aantal gemiste, verkeerde en toegevoegde woorden te delen door het totaal aantal woorden. Hoe lager de WER-score hoe beter. Spraakherkenningssystemen scoren het best met de spraak waarmee ze getraind zijn. De evaluatie vindt plaats aan de hand van een database met veel spraakmateriaal erin.

De daarvoor gebruikte bestaande databases verschillen nogal van elkaar. De een bestaat uit materiaal verkregen uit telefoontjes tussen mensen, de andere uit materiaal dat afkomstig is van audioboeken of juist afkomstig van groepsgesprekken tussen vrienden en familie. Vaak is het materiaal in gunstige omstandigheden opgenomen of is de ruis er zelfs uitgehaald en het volume genormaliseerd.

De onderzoekers geven aan dat er een flink verschil is tussen het omzetten van spraak naar tekst van een gestructureerd interview in gunstige omstandigheden met dat van het in realtime omzetten van een gesprek dat plaatsvindt in een lawaaiige en of galmende ruimte. De onderzoekers vonden een evaluatie met materiaal waarin ook de effecten van lawaai en nagalm zitten dan ook realistischer. Vandaar dat zij in hun onderzoek ook testen gebruikten met lawaai.  

Test spraakherkenningsapps: AVA, Earfy, Live transcribe en Speechy

Bij het onderzoek zijn een aantal spraakherkenningsapps getest met een relatief lage prijs. Dit omdat slechthorenden en doven dit soort apps het meest gebruiken. De volgende apps zijn in het verkennende onderzoek meegenomen: AVA, Earfy, Live transcribe en Speechy. De apps werden getest op een smartphone. Het gebruik van spraakherkenningsapps die ingezet worden bij beeldbellen (telefonische vergaderen) is niet meegenomen.

De werking van de apps is met audiologische tests geverifieerd. Daarvoor is allereerst de woordjes-test (Nederlandse CVC-test) gebruikt. Omdat bij losse woorden er geen context aanwezig is, zijn deze moelijker te verstaan dan hele zinnen. Daarom hebben de onderzoekers ook een test gebruikt met zinnen in stilte (Plomp-test). Omdat slechthorenden vooral problemen hebben met het verstaan in lawaai, geroezemoes en in galmende ruimtes, hebben de onderzoekers ook tests gebruikt waar spraakgewogen ruis aan te pas komt: de zogeheten Digits-in-Noise test (DIN-test) en de Plomp-Mimpen test.

Leontien Pragt: “De door ons geteste apps bereiken in stilte daarmee een score die overeenkomt met die van slechthorenden met een matig gehoorverlies.”

Leontien Pragt test spraakherkenningsapps
Klinisch Fysicus Audioloog i.o. Leontien Pragt werkzaam bij het Radboud UMC voerde tijdens haar stage bij Audlogisch Centrum Pento het onderzoek uit

Resultaten test spraakherkenningsapps

Alle apps wisten op zijn minst 50% van de spraakklanken (fonemen) van de woordjestest op gesprekniveau (65 dB) te halen. Onderzoeker Leontien Pragt werkzaam als klinisch fysicus audioloog in opleiding bij Radboudumc zegt daarover: “Dat is een score die een stuk slechter is dan goedhorenden weten te halen op dezelfde test. Die halen eenzelfde percentage al bij 25 dB. De door ons geteste apps bereiken in stilte daarmee een score die overeenkomt met die van slechthorenden met een matig gehoorverlies.”

Pragt vervolgt: “Wel is het goed te realiseren dat wanneer iemand 50% van de losse woordjes verstaat, hij of zij wel al meer dan 90% van de zinnen goed kan verstaan. Dit komt omdat de informatie die in de zin besloten ligt groter is dan in die van losse woordjes. Losse woorden geven wel een beter inzicht hoe goed een app in staat is spraakklanken van elkaar te onderscheiden.”

Bij hogere intensiteitsniveaus (dus boven dat van een normaal conversatieniveau) scoorden de apps beter. Bij 80 dB SPL wisten AVA, Speechy en Live Transcribe de 100% te halen. Earfy bleef achter op dat toch al flink hoge niveau en wist maar 90% te behalen.

Leontien Pragt: “Pragt: “De apps zitten met een hun score in rumoer op het niveau van dat van een ernstig slechthorende met hoortoestellen of cochleair implantaat.”

Bij de voor de praktijk meer realistische tests met ruis moest bij alle apps de spraak een flink stuk hoger liggen dan de ruis om 50% van de cijfers of zinnen te verstaan. Uit het onderzoek blijkt dat spraak daarvoor maar liefst 8 dB sterker moet zijn dan de ruis. Ter vergelijking: een gemiddelde goedhorende is in staat om 50% te verstaan in situaties waar de spraak een flink aantal decibellen onder de ruis ligt (zo’n 8 dB). Pragt: “De apps zitten met een hun score in rumoer op het niveau van dat van een ernstig slechthorende met hoortoestellen of cochleair implantaat.”

Op de DIN-test (cijfers in ruis) en Plomp-test scoorden Live Transcribe en AVA het beste. Live Transcribe is een app die alleen werkt op telefoons en tablets met Android. AVA is beschikbaar op zowel Android als op IOS van Apple.  

Peter van Hengel test spraakherkenningsapps AVA speechy earfy live transcribe
Klinisch fysicus audioloog Peter van Hengel tijdens een bijeenkomst van de Nederlandse Verenging voor Audiologie

Audioloog Peter van Hengel: “Juist bij het spraakafzien zitten belangrijke non-verbale aanwijzingen en nuances die niet in een transcriptie zijn te vangen.”

Spraakherkenningsapps voor slechthorende luisteraars

De onderzoekers geven aan dat het goed is bij de ontwikkeling van spraakherkenningsapps voor slechthorenden rekening te houden met specifieke behoeften van de gebruikers. Onderzoeker en audioloog bij Pento Peter van Hengel zegt daarover: “Sommige luisteraars gebruiken spraakafzien en lezen tegelijkertijd ook de tekst die de spraakherkenningsapp genereerd. Juist bij het spraakafzien zitten belangrijke non-verbale aanwijzingen en nuances die niet in een transcriptie zijn te vangen. Deze kunnen juist bijdragen aan een beter verstaan in rumoer.

Zonder een goed doordacht ontwerp van de app kan het lezen van de tekst het spraakafzien negatief beïnvloeden.” Wat de spraakherkenningsapp AVA doet, sprekers in verschillende kleuren tekst weergeven kan goed werken. Van Hengel: “Dat kan ervoor zorgen dat de lezer sneller in de gaten heeft wie er spreekt en wie ze moeten aankijken.” Ook is het mogelijk in de app aan te geven wanneer er belangrijke omgevingsgeluiden aanwezig zijn. Van Hengel geeft nog een andere optie die meegenomen kan worden: “De mogelijkheid om feedback te geven op de resultaten van de transcriptie zelf, kan ook nuttig zijn. Feedback zou zelfs kunnen vanuit zowel de spreker als de luisteraar.” Van Hengel vervolgt: “Ook is het goed om te kijken hoe goed de app is te gebruiken voor ouderen die minder digitaal vaardig zijn.”

Beperkingen hardware en onderzoek

Dat de spraakherkenningsapps niet op het niveau van een goedhorende in stilte uitkomen en in lawaai ook niet veel verder komen dan dat van een ernstig slechthorende, kan ook te maken hebben met beperkingen die de hardware met zich meebrengt. Audiologe Leontien Pragt daarover: “Dat kan komen door het beperkte dynamisch bereik van de microfoons in de smartphones. Ook kan het zijn dat de richting waarin de gebruiker de smartphone houdt niet optimaal is voor de ingebouwde richtingmicrofoons. Dat kan gebeuren wanneer de gebruiker de telefoon zo houdt dat de positie optimaal is voor het lezen van de tekst, of de smartphone voor hem of haar op de tafel neerlegt.”

Aan het onderzoek zitten ook nog een aantal beperkingen. Leontien Pragt: ”We hebben niet het effect meegenomen van accenten of spraakbeperkingen zoals dat van dovenspraak. Ook is in ons onderzoek bijvoorbeeld niet de verwerkingssnelheid of effect op spraakafzien en het gebruiksgemak meegenomen. Aan de hand van de resultaten kunnen we wél aardig voorspellen voor welke slechthorende de apps nut kunnen hebben. In een vervolgonderzoek dat deze maand start aan het Radboudumc zullen we ervaringen verzamelen van mensen die deze apps gebruiken om nog beter inzicht te krijgen wanneer deze apps van meerwaarde zijn en in welke situaties er nog verbeteringen gewenst zijn.”

Bron: Pragt L, van Hengel P, Grob D, Wasmann JA. Preliminary Evaluation of Automated Speech Recognition Apps for the Hearing Impaired and Deaf. Front Digit Health. 2022 Feb 16;4:806076. Lees hier het artikel

Reacties (6)
  1. Goed artikel! Dank jullie wel voor onderzoek. Group Transcribe van Microsoft hadden jullie ook mee kunnen nemen. Die is platformonafhankelijk.

    • Ik mis de spreek snelheid. via de telefoon speken de mensen supersnel.
      Maar ook in het dagelijks gebruik wordt er snel en slordig gesproken.
      Is een mondbeeld samen met tekst een oplossing?

    • Bedankt voor de suggestie. We gaan Group Transcribe zeker in overweging nemen om mee te nemen in vervolgonderzoek.

  2. Interessant artikel. Het zit ‘m dus vooral in de hardware van de smartphone. Maar wat als je een externe mircrofoon koppelt aan de smartphone? Worden die spraakherkennings-apps dan niet een stuk nuttiger? Of is dit niet mogelijk?

    • Het toevoegen van een microfoon maakt niet alleen de transcriptie beter, het kan ook helpen om structuur in een vergadering te houden. Dat mis ik ook in dit onderzoek, want wij (bij Ava) adviseren juist het gebruik van een microfoontje of headset. Er zijn verschillende microfoons (handheld, dasspeldmicrofoon, bluetooth microfoon, of zelfs bluetooth accessoires voor hoortoestellen zoals een Roger Select). Een andere optie is om een computer te gebruiken. Ava Closed Captions pakt bijvoorbeeld rechtstreeks het geluid vanuit de computer en ondertitelt daarmee gesprekken, video, podcasts etc. Je kunt van een computer niet verwachten dat hij de nuances van een mens onderscheidt, bijvoorbeeld als er een fout wordt gemaakt of een onlogische zin. Een correctiefunctie is dan handig, al dan niet door een professional. Ook zijn sommige systemen lerend, waardoor het je stem steeds beter leert kennen of kun je het trainen.

  3. Goed dit alles gelezen tehebben. Fijn dat er veel wordt gezocht om ons minder goed horenden vrolijk tussen mensen te kunnen zijn.Ik heb gisteren op eens gemerkt dat ik heel veel moeite had tussen 5 babbelende dames.om mijnnaaste teverstaan..

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Meer nieuws

Gezondheidsraad: grens muziek bij 100 dBA

1 december 2022 | De gezondheidsraad adviseert het maximale volume van versterkte muziek bij 100 dBA neer te leggen. [...]

Check uw zorgpolis op hoorzorg!

28 november 2022 | Levert uw verzekeraar in 2023 nog de hoorzorg die u wilt en ook bij de [...]

Misofonie en paranoia-achtige gedachten: onderzoek naar verband

23 november 2022 | Poolse wetenschappers werkzaam bij het Experimenteel Psychopathologie lab van het Psychologisch Instituut in Warschau hebben [...]