Koenraad S Rhebergen, Niek J. Versfeld & Wouter A. Dreschler
AMC, KNO / Klinische & Experimentele Audiologie, 21 september 2005
Iedereen weet uit ervaring dat het lastig is om iemand te verstaan in situaties met omgevingsgeluiden. Wanneer de omgevingsgeluiden afkomstig zijn van apparaten of machines, zoals in de situatie waarbij een gesprek wordt gevoerd in een auto, wordt de verstaanbaarheid van de spreker eigenlijk alleen bepaald door de mate waarin de omgevingsgeluiden de spraak fysiek overstemmen of maskeren. Vervelender wordt het wanneer de spreker in de buurt staat van een tweede spreker, de stoorspreker. De luisteraar heeft dan relatief meer last van de stoorspreker, omdat naast fysieke maskering de aandacht van de luisteraar ook nog getrokken wordt naar inhoud of informatie afkomstig van deze stoorspreker. Deze tweede vorm van maskeren wordt dan ook met een Engelse term “informational masking” genoemd. Het moge duidelijk zijn dat informational masking grotendeels verdwijnt wanneer de stoorspreker bijvoorbeeld Zweeds in plaats van Nederlands spreekt.
In de audiologie worden veel spraakverstaantests gedaan, bijvoorbeeld om te
bepalen hoe goed iemand kan verstaan met hoortoestellen. Om enerzijds dicht bij
de realiteit te blijven en anderzijds informational masking te elimineren zijn
veel experimenten gedaan waarbij de stoorspraak in de tijd is omgedraaid. De
fysieke (spectrale) eigenschappen van de stoorspraak blijven zo behouden, maar
de stoorspraak zelf wordt onverstaanbaar. De traditionele manier om te meten hoe
goed een spreker in omgevingsgeluiden is te verstaan, is door steeds de
verstaanbaarheid van de spreker te meten, waarbij de omgevingsgeluiden in meer
of mindere mate worden toegevoegd. De signaal-ruisverhouding (de verhouding
tussen het niveau van de spreker en dat van de omgevingsgeluiden, uitgedrukt in
dB) waarbij de helft van de spraak nog correct kan worden verstaan wordt de
Speech-Reception Threshold (SRT) genoemd. In stationaire ruis is bekend dat de
signaal-ruisverhouding of SRT ligt op –5 dB, dus dat de spraak ca. 5 dB zachter
kan zijn dan de omgevingsgeluiden. In fluctuerende ruis kan de SRT bij het
zelfde gemiddelde geluidniveau variëren van -6 tot -30 dB. Deze uiteenlopende
SRT waarden worden bepaald door de “fysieke” temporele structuur van het
stoorsignaal. Het ene stoorgeluid geeft de luisteraar als het ware meer ruimte
om in de “gaten van de ruis” te luisteren dan het andere stoorgeluid. Hoe dieper
en of langer men in de gaten van de ruis kan luisteren, hoe lager (lager is
beter) de gemeten SRT is. Uit diverse SRT metingen blijkt dat in de regel een
normaal horende in fluctuerend omgevingsgeluid veel makkelijker een spreker kan
verstaan dan in een continu omgevingsgeluid met het zelfde geluidsniveau. Om de
spraakverstaanbaarheid in divers omgevingslawaai in diverse ruimtes te bepalen
wordt de SRT niet gemeten omdat het een zeer tijdsrovende methode is, die
daarnaast ook nog eens alleen betrouwbaar is te meten in een klinisch of
experimenteel goed gecontroleerd laboratorium. Een goed alternatief voor de SRT
meting is het voorspellen van de spraakverstaanbaarheid met behulp van het STI
(Speech Transmission Index, Steeneken & Houtgast, 1980) of het SII (Speech
Intelligibility Index; ANSI 1997) model. Deze methoden berekenen aan de hand van
de fysieke maskering hoeveel spraak informatie voor de luisteraar beschikbaar
is. Beide modellen zijn goed gevalideerd met o.a. SRT metingen. De STI en SII
hebben hun waarde bewezen zolang er voorspellingen worden gedaan van de
spraakverstaanbaarheid in een omgeving waar continu stoorgeluid en/of galm
aanwezig is. Beide methoden zijn echter ongeschikt om de spraakverstaanbaarheid
te voorspellingen in realistische alledaagse fluctuerende stoorgeluiden.
Aangezien de meeste omgevingsgeluiden juist meer fluctuerend van karakter zijn,
was er al enige tijd behoefte om de spraakverstaanbaarheid in realistisch
stoorgeluiden goed te kunnen voorspellen. Rhebergen & Versfeld (2005) hebben een
aanpassing gemaakt op het SII model waardoor het nu ook mogelijk is om de
spraakverstaanbaarheid in fluctuerend achtergrond geluid adequaat te
voorspellen. Deze methode werkt goed zolang er uitsluitend sprake is van fysieke
maskering. Als er naast de spreker een verstaanbare storende spreker actief is,
dan wordt de spraakverstaanbaarheid overschat door deze nieuwe SII methode. De
voorspelde SRT ligt een stuk lager dan de gemeten SRT. Dit verschil in SRT is
het gevolg van “informational masking”.
Het SII model houdt er dus geen rekening mee dat een luisteraar afgeleid kan
worden door de verstaanbaarheid van een tweede storende spreker. Hoe groot de
bijdrage van informational masking op de gemeten SRT is, is tot op heden nog een
punt van discussie. Zoals gezegd: In veel studies wordt de invloed van
“informational masking” omzeild door de storende tweede spreker achterstevoren
af te spelen. Het gevolg is dat de spraakverstaanbaarheid in deze conditie
gelijk of zelf beter is dan wanneer de spraak van de tweede spreker normaal
wordt afgespeeld. Waar echter tot nu toe nooit rekening mee is gehouden is dat
door de temporele structuur van achterstevoren afgespeelde spraak meer fysieke
maskering geeft dan normaal afgespeelde spraak. Spraak bestaat immers
hoofdzakelijk uit plofklanken. In figuur 1 en 2 wordt het effect van de extra
maskering geïllustreerd. Bij een plofklank (figuur 1) loopt de maskering gelijk
met de omhullende van de golfvorm.; bij een omgekeerde plofklank (figuur 2) kan
het oor de abrupte offset niet volgen, hetgeen meer maskering geeft.
figuur 1. In het blauw de omhullende van een 8-Hz gemoduleerde zaagtand; in het
rood de gesimuleerde resultante maskering.
figuur 2. In het blauw de omhullende van de omgekeerde 8-Hz
gemoduleerde zaagtand; in het rood de resultante van de maskering.
Uit experimenten in ons lab blijkt dat ondanks het feit dat de gemiddelde
temporele fluctuaties van beide condities gelijk zijn, de conditie in figuur 2
ongeveer 3 dB meer maskeert dan de conditie uit figuur 1. Verandering in de
gemeten spraakverstaanbaarheid met omgekeerde spraak als stoorruis is dus het
gevolg van twee tegengestelde effecten. Aan de ene kant een toename van de
spraakverstaanbaarheid doordat de stoorspreker onverstaanbaar wordt en aan de
ander kant een afname van de spraakverstaanbaarheid door toename van de
temporele maskering. Om de bijdrage van “informational masking” op de
spraakverstaanbaarheid te ontrafelen hebben we een SRT test afgenomen bij een
groep (nederlandssprekende) normaalhorende proefpersonen. Het verstaan werd
bemoeilijkt door verstaanbare (Nederlands) en onverstaanbare (Zweeds)
stoorsprekers; normaal en achterstevoren afgespeeld. Door Zweedse spraak als
stoorbron te nemen is in zowel de normale en achterstevoren afgespeelde conditie
geen “informational masking” aanwezig; de proefpersonen kunnen immers niet
verstaan wat de Zweedse spreker zegt. In de Zweedse condities is dus alleen
fysieke maskering aanwezig. In de condities met een Nederlandse spreker, is er
alleen “informational masking” aanwezig in de normaal afgespeelde conditie. De
Zweedse stoorspraak achterstevoren afgespeeld gaf een stijging in SRT van 2.3 dB
vergeleken met de Zweedse stoorspraak normaal afgespeeld. De stijging van de SRT
is het gevolg van een toename van de temporele maskering. De Nederlandse
stoorspraak achterstevoren afgespeeld gaf een daling in SRT van 4.3 dB
vergeleken met de Nederlandse stoorspraak normaal afgespeeld. Dit resultaat is
het gevolg van zowel een afname in “informational masking” als een toename van
de temporele maskering. Doordat de temporele structuren van het Zweeds en het
Nederlands min of meer gelijkwaardig zijn, kunnen we de mate van “informational
masking” bij deze groep proefpersonen in deze condities schatten op 4.3 + 2.3 =
6.6 dB. Met dit experiment (Rhebergen, Versfeld & Dreschler, 2005) is aangetoond
dat de overschatting van de SII voorspelling in een conditie met een
verstaanbare storende spreker (Rhebergen & Versfeld, 2005) het gevolg is van
“informational masking”. De gevoeligheid voor “informational masking” is
waarschijnlijk sterk afhankelijk van de luisteraar, het type storende spreker en
de inhoud van de spraak. Mensen die snel worden afgeleid zullen waarschijnlijk
meer last van informational masking hebben dan mensen die zich goed kunnen
concentreren. Bij het voorspellen van de spraakverstaanbaarheid in klaslokalen,
van omroepinstallaties in treinen e.d. moet men er dus rekening mee houden dat
naast fysieke maskering ook “informational masking” de spraakverstaanbaarheid
negatief kan beïnvloeden.
ANSI (1997). ANSI S3.5-1997, American national
standard methods for calculation of the speech intelligibility index (American National Standards Institute, New York).
Rhebergen, KS, and Versfeld, NJ (2005)
A Speech Intelligibility Index-based approach to predict the speech reception
threshold for sentences in fluctuating noise for normal-hearing listeners, J. Acoust. Soc. Am. 117, 2181-2192.
Rhebergen, KS, Versfeld, NJ, and Dreschler WA (2005).
Release from informational masking by time reversal of native and non-native
interfering speech, J. Acoust. Soc. Am. 118, 1274-1277.
Steeneken, H. J., and Houtgast, T. (1980). "A physical method for measuring speech-transmission quality", J.Acoust.Soc.Am. 67, 318-326.
Meer informatie over de SII e.d:
AMC, Klinische & Experimentele Audiologie
Rhebergen, KS, Versfeld, NJ, and Dreschler, WA,
Modelvorming van spraakverstaan in fluctuerend achtergrond lawaai, Geluidnieuws, jaargang 6, nr 8, juli 2005
Rhebergen, KS, Versfeld, NJ, and Dreschler, WA,
Extending the SII method for a better prediction of the speech intelligibility
in fluctuating noise, Draft for extension to ANSI standard S3.5-1997; Section 5
between present sections 5.1 and 5.2”.