Hoor ik ook wat ik zie?

Myra van Esch, Usability Engineering Group,TNO Soesterberg, 23 mei 2001

Bij computerprogramma's is het steeds gebruikelijker aan allerlei functies een geluidje te koppelen. Bekende voorbeelden zijn het 'ping'-geluid bij een binnenkomend e-mailbericht of het geluid van een papierversnipperaar bij het leegmaken van de prullenbak. Maar wat is de bedoeling of het effect van deze geluiden? Zijn ze alleen maar leuk of grappig of hebben de geluiden een positieve of negatieve invloed op het uitvoeren van een bepaalde taak? Maakt het wat uit of ik hoor wat ik zie?

Met behulp van proefpersonen zijn twee soorten geluiden onderzocht: concrete geluiden, zoals het blaffen van een hond en abstracte muziekakkoorden in majeur en mineur. Muziek in majeur wordt vaak met iets positiefs geassocieerd en in mineur met iets negatiefs. In de experimenten werd onderzocht wat het effect is van deze geluiden op de uitvoering van een visuele taak. Uit dit onderzoek komt naar voren dat concrete, levensechte geluiden de taak versnellen, terwijl abstracte geluiden de uitvoering vertragen. Als het geluid niet overeenkomt met de visuele taak (bijvoorbeeld geblaf bij de afbeelding van een kat), wordt de uitvoering van de taak extra vertraagd. Het lijkt niet gewenst zomaar geluid toe te voegen aan een computeromgeving. Anders gezegd: door gelijktijdige toevoeging van de juiste geluiden - zodat ik hoor wat ik zie - kan het uitvoeren van computertaken versneld worden.

Noot van de redactie: op 19 juni 2001 promoveert mw. van Esch op dit onderwerp bij de Universiteit Nijmegen

Samenvatting proefschrift

De meeste computers en computerspelletjes bieden tegenwoordig een ware multimedia-ervaring. Door combinaties van beeld en geluid wordt aan gebruikers getoond wat het effect is van hun handelingen. Over het algemeen geven gebruikers aan, dat zij deze multimodale informatiestroom waarderen, maar het effect van het aanbieden van dezelfde informatie in beeld en geluid is nooit empirisch vastgesteld (Edworthy, 1998).

Mijn proefschrift probeert hier meer duidelijkheid over te verschaffen door de specifieke vraag te beantwoorden: hoe worden verschillende vormen van visuele en auditieve informatie geďntegreerd?

Om deze vraag te onderzoeken werd gebruik gemaakt van een visuele categorisatietaak, waarbij concrete en abstracte geluiden als redundante informatie werden aangeboden. In een categorisatietaak krijgen proefpersonen de opdracht om voor elke stimulus, in dit geval een plaatje, te bepalen of het tot een bepaalde categorie behoort. Bijvoorbeeld, voor elk plaatje dat de proefpersoon ziet, moet hij of zij op een ‘ja’-knop of een ‘nee’-knop drukken als antwoord op de vraag: is dit een plaatje van een dier? Hoe snel er gedrukt wordt is vervolgens een indicatie van de tijd die het duurde om tot een besluit te komen.

In de experimenten die in dit proefschrift beschreven worden, werd naast het plaatje ook nog een geluid aan de proefpersonen aangeboden. In sommige gevallen kregen de proefpersonen het geluid van een dier of een muziekinstrument te horen. Deze concrete, alledaagse geluiden worden ook wel auditory icons genoemd (e.g. Gaver, 1989; Mynatt, 1994). In andere gevallen kregen de proefpersonen majeur- of mineur-akkoorden te horen. Van majeur-akkoorden is bekend dat ze een positieve connotatie hebben en van mineur-akkoorden weten we dat ze met iets negatiefs geassocieerd worden (e.g. Hevner, 1933; Crowder, 1984). Deze abstracte, meer conceptuele geluiden worden earcons genoemd (e.g. Blattner, Sumikawa & Greenberg, 1989).

In het eerste hoofdstuk van het proefschrift wordt uitgelegd welke processen een rol spelen bij het integreren van informatie van twee modaliteiten. Allereerst zijn er natuurlijk de auditieve en visuele stimuli op zich die verwerkt moeten worden door het visuele en auditieve systeem. Daarnaast hangt het af van onze attentie hoeveel we van onze omgeving opmerken. Op het moment dat we meerdere dingen tegelijk aan het doen zijn of vanuit meerdere bronnen informatie ontvangen, dan is de capaciteit van onze attentie, hoeveel we op dat moment kunnen registreren en verwerken, daarbij van belang (Knowles, 1963; Kahneman, 1973).

Maar wat gebeurt er als de auditieve en visuele informatie gezamelijk aangeboden wordt? Uit eerder onderzoek is gebleken dat als een stimulus gepresenteerd wordt, vergezeld van een redundante tweede stimulus, dit leidt tot snellere reacties (Nickerson, 1973; Colavita & Weisberg, 1979; Welch & Warren, 1986; Stein & Meredith, 1993). Aangenomen wordt dat dit aan de ene kant komt door een verhoogde attentie: de ene concrete stimulus heeft een alarmerend, waarschuwend effect voor de andere stimulus. Aan de andere kant zorgt het aanbieden van dezelfde concrete informatie in twee modaliteiten dat de activatie van die informatie in het geheugen groter wordt en dus de informatie saillanter. Hoe saillanter de informatie is, des te minder ambigu en des te sneller kan de proefpersoon reageren op de vraag.

Deze eerdere studies zijn voornamelijk gebaseerd op stimuli zonder semantiek, zoals een lichtflits of auditieve ruis. In onze experimenten werd een meer complexe categorisatietaak gebruikt, waarbij ofwel meer concrete geluiden in de vorm van auditory icons als accessories aangeboden werden, ofwel meer abstracte, conceptuele geluiden in de vorm van earcons.

In het tweede hoofdstuk komt een paradigma aan de orde, dat gebruikt wordt binnen de categorisatie-experimenten, namelijk het Simon-paradigma (e.g. Simon, 1990). In het klassieke Simon-experiment wordt een irrelevant kenmerk van een stimulus gekoppeld aan een relevant kenmerk van een respons en dit irrelevante kenmerk is onafhankelijk van het relevante kenmerk van de stimulus. In onze studie wordt de connotatie van het earcon (positief in het geval van majeur en negatief bij mineur) gekoppeld aan de respons op de categorisatie (ja of nee).

Een eerste experiment laat zien dat er bij een complete randomisatie van de aanbiedingen een vertragend effect optreedt als het earcon aanwezig is, ten opzichte van de aanbiedingen waarbij alleen de visuele stimulus beschikbaar is. Verder wordt in een tweede experiment aangetoond dat dit effect het grootst is als het plaatje en het geluidje tegelijk worden gepresenteerd. Op het moment dat het geluid 500 ms eerder wordt aangeboden dan de visuele stimulus, verdwijnt het effect. In een derde experiment komt naast het vertragende effect van de earcons een negatief Simon-effect naar voren, als de stimuli gegroepeerd naar connotatie worden aangeboden. Als het geluidje de tegenovergestelde connotatie heeft van de beoogde respons op het plaatje, bijvoorbeeld als de proefpersoon een kat ziet en een mineur-akkoord hoort, dan is de reactie meer vertraagd dan wanneer de proefpersoon een kat ziet en een majeur-akkoord hoort en dus het geluidje dezelfde connotatie heeft als de beoogde respons.

In het derde hoofdstuk worden deze bevindingen nog eens bevestigd en wordt verder vastgesteld dat muzikale ervaring (het meer dan 6 jaar actief bespelen van een instrument) geen statistisch significante invloed heeft op de gevonden effecten.

Naast reactietijden vormen fouten ook een belangrijke bron van informatie over wat er gebeurt bij het integreren van informatie. Tijdens de experimenten in hoofdstuk 2 en 3 werden weinig fouten gemaakt, waarschijnlijk ten gevolge van de eenvoudigheid van de taak. Om te taak moeilijker te maken werd een dubbeltaak-experiment gedaan, dat wordt beschreven in hoofdstuk 4. Naast de categorisatie-taak moeten proefpersonen per categorie de som onthouden van cijfers die in elk plaatje worden weergegeven.

De resultaten laten zien dat er langzamer wordt gereageerd dan in eerdere experimenten en dat er meer fouten worden gemaakt. De aantallen fouten zijn echter gelijkmatig verdeeld over de condities. Verder wordt er wederom een vertragend effect vastgesteld van de earcons ten opzichte van de aanbiedingen waar alleen het plaatje wordt getoond.

In het vijfde hoofdstuk komt het tweede paradigma aan bod, dat gebruikt wordt in categorisatie-experimenten, het Stroop-paradigma (Stroop, 1935; MacLeod, 1991). Stroop wilde attentie en interferentie onderzoeken door te testen wat het effect zou zijn van verschillende aspecten van een samengestelde stimulus op het benoemen van een ander aspect van de stimulus. In de traditionele taak moesten proefpersonen bijvoorbeeld de kleur van de inkt van geschreven namen van kleuren benoemen. In de experimenten in hoofdstuk 5 wordt analoog aan dit idee het effect onderzocht van concrete auditieve informatie (auditory icons) in de vorm van dierengeluiden en geluiden van muziekinstrumenten op de categorisatie van plaatjes van dezelfde categorieën. Wat gebeurt er bijvoorbeeld als een proefpersoon bij een plaatje van een hond moet aangeven of het een dier is, maar tegelijkertijd het hinniken van een paard hoort? Net als bij de earcons worden twee soorten effecten gevonden, maar de aard van de effecten verschilt nogal van die bij de earcons. Allereerst reageren proefpersonen sneller in de multimodale aanbiedingen vergeleken met de aanbiedingen waar alleen het plaatje wordt aangeboden. Het doet er blijkbaar niet toe wat voor auditory icon bij het plaatje wordt aangeboden. De reactietijden zijn altijd sneller als er geluid aanwezig is. Dit komt overeen met de eerder genoemde gedachte dat de ene stimulus een alarmerende werking kan hebben op de andere stimulus en zo de attentie kan verhogen. Verder reageren proefpersonen het snelst als het plaatje en het geluidje precies overeenkomen, bijvoorbeeld als het plaatje van een kat gepresenteerd wordt met het geluid van een miauwende kat. Blijkbaar is de mate waarin de auditieve en visuele informatie hetzelfde representeren ook van belang. Hoe meer de multimodale informatie overeenkomt, hoe sneller de reactietijden.

Vergelijkbaar met het Simon-paradigma en de earcons, wordt in hoofdstuk 6 een dubbeltaak beschreven, waarbij proefpersonen wederom naast de categorisatie de som moeten onthouden van getallen die in de plaatjes worden weergegeven. De auditory icons die hierbij gebruikt worden zijn gerelateerd aan de categorieen van plaatjes maar worden niet als zodanig visueel gerepresenteerd. Voor de categorie dier wordt bijvoorbeeld een blaffende hond gebruikt als auditory icon, maar er is geen visuele stimulus van een hond. De resultaten geven aan dat nu, in tegenstelling tot het experiment met de enkelvoudige taak, proefpersonen in de multimodale aanbiedingen langzamer reageren dan in de aanbiedingen met alleen de plaatjes. Dit is waarschijnlijk het geval omdat er door het tellen meer informatie verwerkt moet worden. Deze grotere hoeveelheid informatie, ongeacht of het overeenkomt met de categorie van de plaatjes of niet, kost meer tijd. Het aantal fouten is groter dan in het experiment uit hoofdstuk 5, maar net als bij de dubbeltaak met de earcons gelijk over de verschillende condities verdeeld.

Algemene conclusies

De experimenten die hier beschreven werden laten zien dat er een verschillend effect is van concrete en abstracte auditieve informatie op een visuele categorisatie-taak. De concrete auditory icons leiden in de enkelvoudige taak tot een facilitatie van de reactietijden, terwijl de abstracte earcons een inhibitie van de reactietijden tot gevolg hebben. Verder is de mate waarin de informatie in de geluiden overeenkomt met de visuele informatie ook van belang. Als de abstracte earcons niet overeenkomen met de beoogde respons, dan wordt de reactie verder vertraagd. Voor de concrete auditory icons geldt het tegenovergestelde: als de concrete geluiden precies overeenkomen met de visuele stimuli dan wordt de reactie verder versneld. Als laatste laten de resultaten zien dat bij een dubbeltaak, waarbij naast de categorisatie een extra cognitieve belasting optreedt door het moeten onthouden van de som van een reeks getallen, de toevoeging van zowel concreet als abstract geluid leidt tot een vertraging van de reactietijden.

Wat betekenen deze resultaten echter voor de ontwikkeling van multimodale interfaces? Allereerst laten de gegevens zien dat voorzichtig omgesprongen dient te worden met het toevoegen van redundante informatie in een andere modaliteit. Het is zeker niet zo, dat hiermee altijd een positief effect verkregen wordt in termen van productiviteit (responstijden). Als toch auditieve signalen toegevoegd worden, lijken de uitkomsten van dit onderzoek voor concrete situaties ook meer concrete geluiden aan te bevelen, echter subjectieve maten als preferentie en irritatie bij de gebruikers zijn hier niet in meegenomen en zouden verder onderzocht moeten worden. Verder tonen deze resultaten aan, dat als de taak meer complex is, hetgeen in de praktijk meestal het geval is, de situatie heel anders kan liggen dan wanneer de taak eenvoudig is. Zowel bij concrete als abstracte geluiden, leidt de aanbieding naast de visuele informatie in een complexe taak tot een vertraging van de respons. In een tijdcritische complexe situatie lijkt multimodaliteit niet de voorkeur te genieten.

home...