Hoe psychologie zit opgescheept met een verkeerd wiskundig model

Mediamuis versus Labrat

Voor MindOpen interviewde ik de onderzoekers Michael Lee en Eric-Jan Wagenmakers over hun samenwerking. Ze vertellen waarom meer dan de helft van de onderzoeken uit Science en Psychological Science niet te repliceren zijn. ‘Een wetenschappelijke gemeenschap bestaat voor zo’n vijf procent uit mensen die fundamentele doorbraken maken. De rest zorgt voor de infrastructuur van het wetenschappelijke proces.’

Michael Lee en Eric-Jan Wagenmakers gaan naar dezelfde kerk, die van Bayes. Het klinkt misschien eigenaardig voor wetenschappers om zich religieus te noemen, maar Wagenmakers houdt er van zijn punt sterker aan te zetten. ‘Dit is de waarheid,’ zegt hij met een glimlach.

Vandaar dat er buiten zijn kamer een filmposter hangt met de Amsterdamse apostelen van de leer, getiteld “De Bayesian suspects”. Binnen deze kerk staat de p-waarde van het gebruikelijke statistische model (een waarde die de significantie van een resultaat aangeeft) gelijk aan het werk van de duivel. En aanhangers van het huidige wiskundige systeem waar de psychologie op drijft, zijn heuse antichrists.

Goed, dat laatste is wat overdreven – Lee gebruikt ook liever niet het woord ‘religieus’. Feit is wel dat papers tegen Bayes’ stelling Wagenmakers slapeloze nachten kunnen bezorgen. Zoals vijf jaar geleden, toen hij zo boos was na het lezen van een stuk in Psychological Review, dat hij de dag erop gelijk een commentaar mailde. ‘Dat werd afgewezen, omdat het te wiskundig was. Michael mailde me niet veel later dat hij mijn reactie had gelezen en het met me eens was. Hij diende vervolgens een soortgelijk artikel in, maar dit keer was ik een van de reviewers.’

Hoewel Wagenmakers niet kon voorkomen dat ook Lee’s stuk werd afgewezen, stelde de editor van Psychological Review beiden voor samen een artikel te schrijven. En zo schreven Australiër Lee, die nu onderzoek doet aan de Universiteit van Californië, en Amsterdammer Wagenmakers, universitair hoofddocent bij de Programmagroep Methodenleer, hun eerste gezamenlijke publicatie.

Een studieboek over Bayesiaanse statistiek voor psychologiestudenten is hard nodig

Tussen Lee en Wagenmakers – en ook Mark Steyvers die aan de UvA afstudeerde en met Lee in Irvine een lab deelt – is een hechte samenwerking ontstaan. Ze wisselen vaak studenten uit, beoordelen elkaar publicaties voordat ze die insturen, publiceren samen en werken aan een studieboek over psychologisch onderzoek én Bayesiaanse statistiek.

Zo’n leerboek speciaal voor psychologiestudenten is volgens Lee en Wagenmakers hard nodig. Het is er nog niet, terwijl de Bayesiaanse statistiek op allerlei vlakken aan terrein wint. Het argument tegen het statistische model van de Engelse predikant – te subjectief – is volgens Wagenmakers achterhaald. Er zijn namelijk oplossingen dit te ondervangen. Het huidige systeem is juist zwak omdat de intenties van de onderzoeker een grote rol kunnen spelen in berekeningen. ‘De psychologie gaat de goede kant op, maar we willen blijven pushen om de vaart erin te houden,’ valt Lee zijn collega bij.

Lee was deze zomer in Amsterdam voor conferenties van de Cognitive Science Society en Society for Mathematical Psychology. Én natuurlijk om collega Wagenmakers te ontmoeten. Voor een interview maakt hij graag tijd. Nadat hij op een terras aan een Amsterdamse gracht in zijn beste Nederlands een koffie verkeerd heeft besteld, steekt hij van wal met zijn belangrijkste argument voor Bayes.

‘De theorie van Bayes is een natuurlijke manier om over wetenschap en vooruitgang te denken. Terwijl niemand je een interpretatie kan geven van de weinig coherente methodes die we nu gebruiken, is het idee achter Bayesiaanse statistiek simpel. Je start met wat je weet van een probleem. Dan verzamel je informatie, bijvoorbeeld data uit een experiment. En dankzij Bayesiaanse statistiek kun je die data incorporeren in informatie die je voor het experiment had. Het staat je als onderzoeker vrij informatie te updaten met meer relevante data of te stoppen bij voldoende bewijs. Dan kan dus niet met het huidige statistische model.’

‘Een ander voordeel van Bayesiaanse statistiek is dat die helpt bij het bouwen van betere modellen. Zo is het makkelijker individuele verschillen toe te laten in je model. Neem een beslissingsmodel. Traditionele modellen veronderstellen dat óf iedereen op dezelfde manier beslist óf dat iedereen dat compleet anders doet. Bayesiaanse statistiek biedt de mogelijkheid tussen die twee uitersten te zitten. Daarbij wordt gesteld dat er verschillen tussen mensen kunnen zijn, maar óók dat er overeenkomsten zijn.’

Waarom zit de psychologie volgens U opgescheept met een verkeerd model?

‘Inmiddels zijn bijna alle wetenschappen overgestapt op de theorie van Bayes, behalve gezondheidswetenschappen, psychologie en sociologie. Waarom psychologie langzamer switcht naar dit model dan bijvoorbeeld biologie en economie, is moeilijk te zeggen. Je kunt speculeren dat die laatste twee gebieden nauwer zijn verbonden met wiskunde en daarom beter op de hoogte blijven van ontwikkelingen daarin. Maar psychologie gaat de goede kant op. Toen ik in 1997 als academicus begon was het moeilijk artikelen gepubliceerd te krijgen op basis van Bayesiaanse analyses. Tegenwoordig is dat nauwelijks nog een probleem.’

Een opkomend theoretisch model binnen de cognitieve wetenschap is dat er in ons brein Bayesiaanse statistiek plaatsvindt, bijvoorbeeld tijdens leren. Is dat model de opvolger van de computer als metafoor voor het brein?

‘Bayes geeft de mogelijkheid tot aannames te komen op basis van heel weinig data of informatie. Vooral bij leermodellen kan dit model helpen te begrijpen hoe je een kleine leerervaring kunt hebben en dat ineens alles op zijn plaats valt. Zo’n eureka-moment vonden we ook bij kinderen die de betekenis van cijferwoorden leren. Ze leren eerst wat één is, dan twee, drie en vier. Op dat moment ontdekken ze dat als je één optelt bij het getal, het een groter getal wordt. En dan beseffen ze inééns de betekenis van vijf, zes, zeven, acht, negen en tien.’

Wagenmakers en u prefereren data uit experimenten die situaties in het dagelijks leven benaderen boven data uit laboratoriumexperimenten. Vanwaar die voorkeur?

‘Voordat ik een baan kreeg aan een universiteit, deed ik onderzoek bij de Australische defensie naar hoe je op basis van bepaalde data tot een goede beslissing kon komen. Als ik dan een beslissingsvraagstuk probeerde op te lossen met een model uit de gebruikelijke psychologische papers, dan werkte dat voor geen meter. Ik ben toen gaan kijken hoe ik die theorieën en modellen kon verbeteren met realistische data. Die houding heb ik als academicus nog altijd. Ik richt me meer op realistische onderzoeken dan op relatief simpele laboratoriumexperimenten.’

Geef eens een voorbeeld?

‘In een onderzoek kwamen alle data van prediction markets, die te vergelijken zijn met aandelenmarkten. In plaats van een aandeel koop je op die markten een voorspelling, bijvoorbeeld dat Obama de verkiezingen wint. Toen op de verkiezingsdag bleek dat hij had gewonnen, kregen handelaren 100 dollar voor een winstvoorspelling, terwijl de voorspelling van een nederlaag niets opleverde. Een paar dagen voor de verkiezingsdag werden de winstvoorspellingen nog verkocht voor 62 dollar. Dat kun je opvatten als een verwachtingskans van 62 procent dat Obama wint. Als de kans hoger geschat zou worden, dan zou er namelijk meer voor dit aandeel zijn betaald. Zo krijg je een groep mensen bij elkaar die van alles over politiek weten en die in een competitieve omgeving de kans schatten dat iets waar is. Dat is een interessante manier om groepsbeslissingen te onderzoeken in de echte wereld waar geld een belangrijke rol speelt. Die data zijn veel interessanter dan eerstejaars te vragen a of b te kiezen op een papiertje. Of een rat te volgen.’

Hoe kijkt u als methodoloog naar psychologisch onderzoek? Wagenmakers plaatst bijvoorbeeld regelmatig kanttekeningen bij de methodologie van die experimenten. Hij schat dat de helft van de onderzoeken Psychological Science en Science zelfs niet te repliceren is.

‘Iedere wetenschapper heeft vermoedelijk bedenkingen bij sommige onderzoeken die je in kranten vindt. Een gedeelte van dit soort vreemde onderzoeken is het gevolg van de toepassing van niet geheel juiste statistische methodes. Dat levert resultaten op die er niet zijn. Een ander deel vindt zijn oorsprong in de drive iets interessants te vinden. Dat is een goede drijfveer, mits die niet ten koste gaat van het goed beoefenen van wetenschap.’

Vervuilen dit soort onderzoeken het veld?

‘Zo ernstig is het niet. Een wetenschappelijke gemeenschap bestaat voor zo’n vijf procent uit mensen die fundamentele doorbraken maken. De rest van het veld kun je niet afschaffen, omdat je niet precies weet wie tot die vijf procent behoren. Bovendien zorgt die rest voor de infrastructuur van het hele wetenschappelijk proces, zoals conferenties. Soms bekruipt me het gevoel dat al die mensen nodig zijn om het veld levend te houden. Dan kan die vijf procent aan de top voor de vooruitgang zorgen. Zo bekeken is het niet zo erg wat er allemaal wordt gepubliceerd in die tijdschriften. Ja, dat is inderdaad een cynische gedachte.’

Behoort u tot die top vijf procent?

‘Beslist niet.’