Statistikern och den undermåliga vetenskapen

Av Olle Häggström.

Publicerad i Qvartilen 3/2004.

1. Statistikern som renhållningsarbetare

''Sju av tio internetkontakter leder till en sexuell relation.'' Detta bisarra påstående kunde man i somras se basuneras ut på förstasidan till Sveriges ledande dagstidning [3] som vore det ett vetenskapligt fastslaget faktum. Detta är blott ett exempel -- låt vara ett ovanligt flagrant sådant -- på något som förekommer praktisk taget dagligen: att felaktiga eller illa underbyggda ''forskningsresultat'' når press och allmänhet. Skulden för sådana händelser bör i de flesta fall rimligtvis delas (dock inte nödvändigtvis lika) mellan de forskare som slarvar med stringensen i sina studier, och de sensationslystna journalister som okritiskt sprider och ibland överdriver resultaten. Och när den vetenskapliga stringensen brister, då är det snarare regel än undantag att den statistiska analysen hör till det som fallerar.

Hur bör vi statistiker förhålla oss till sådant? Våra gemensamma krafter och resurser räcker knappast till att ta itu med alla dessa forsknings- och nyhetsankor, varför det kanske är lika gott att tiga och lida? Naturligtvis inte! Ett visst renhållningsarbete menar jag att vi trots allt bör ägna oss åt.1 Dels naturligtvis med syftet att ställa till rätta de felaktigheter som spridits (även om det alltför vanliga mönstret ''stor nyhet -- liten dementi'' gör att vi inte bör göra oss alltför stora illusioner härvidlag), men också -- och kanske viktigare -- i förebyggande syfte. Man kan hoppas att den forskare vars släpphänta vetenskapliga metodik dras fram i ljuset aktar sig för att vara lika slarvig nästa gång, och forskarens kollegor förblir nog inte heller opåverkade. En viktig observation i sammanhanget är att det finns en stor gråzon mellan det avsiktliga forskningsfusket och de fel som kan hänföras till bristande kunskaper; jag är övertygad om att vi har goda möjligheter att påverka forskare i denna gråzon att strama upp och förbättra sina metoder.

Här kan anföras att ett aktivt renhållningsarbete innebär att vi statistiker riskerar dra på oss en viss impopularitet bland dem vi granskar. Denna fara skall dock inte överdrivas. Och vi kan naturligtvis välja att verka med ett visst mått av hänsyn och urskiljning -- så t.ex. vill jag inte rekommendera den vana som den legendariske Tore Dalenius (enligt vad som berättats för mig av äldre kollegor) hade på 60-talet, att ge sig på forskare i deras karriärers kanske allra känsligaste ögonblick: disputationsakten.

Ett annat sätt att uttrycka idén att vår renhållning främst görs i förebyggande syfte, är att säga att uppgiften i grund och botten är pedagogisk: vi har att lära våra forskarkollegor i andra ämnen att rigorös statistisk metodik i så gott som alla empiriska studier är av avgörande betydelse för den vetenskapliga kvaliteten, och att svårigheten i de statistiska momenten behöver tas på största allvar. Helst bör de lära sig denna läxa så tidigt i karriären som möjligt, och när de är som mest mottagliga för intryck. Eller med andra ord: medan de fortfarande är universitetsstudenter.

Låt mig -- på försök -- kasta fram en tanke om hur vi skulle kunna förbättra våra universitetskurser i statistik i denna riktning. Kanske vore det en bra idé att låta universitetsstudenterna få ta del av exempel -- fallstudier -- på hur lätt hänt det är att det går illa med vetenskapligheten om man inte noggrant beaktar den statistiska aspekten. Sådana fallstudier kan med fördel behandlas i projekt- eller uppsatsform. Vi behöver knappast gräva särskilt djupt i dagspress eller i våra granninstitutioners preprintarkiv för att hitta användbart material till detta. Alternativt kan man reflektera över något av de klassiska och spektakulära exemplen på undermålig vetenskap. De följande två avsnitten skall jag ägna åt att kort redogöra för varsitt sådant exempel2, varefter jag i Avsnitt 4 och 5 skall avsluta med en synpunkt som eventuellt kan provocera en och annan Qvartilen-läsare.

2. Bibelkoden

I bästsäljaren Bibelkoden presenterar Michael Drosnin [4] en upptäckt som, om den är riktig, revolutionerar den moderna världsbilden i grunden. Låt (L1, L2, ..., LN) beteckna texten i den hebreiska ''originalversionen'' av Bibeln, där Li alltså är textens i:te bokstav. Längs aritmetiska delföljder -- sekvenser av typen (La, La+b, La+2b, ..., La+kb) -- kan man ibland hitta riktiga ord. Visuellt dyker dessa upp vertikalt och diagonalt då texten skrivs ned på ett rektangulärt rutmönster med radlängd t.ex. b. Särskilt intressant uppges det vara när ord som tillsammans kan uppfattas som en profetia dyker upp i närheten av varandra i ett sådant rektangulärt schema. På detta vis kan man i Bibeln hitta dolda förutsägelser om nutida händelser som exempelvis bombattentatet i Oklahoma och mordet på Yitzhak Rabin.

En statistikers ryggmärgsreaktion är att invända att det, pga det stora antalet möjliga aritmetiska delföljder, inte alls är oväntat att det här och var, och av en ren slump, dyker upp till synes meningsfulla ordkombinationer. 1994 publicerades i den relativt välrenommerade statistiktidskriften Statistical Science ett arbete avsett att bemöta just denna invändning: Witzum et al. [12]. Utgående från en lista över 34 sentida rabbiner, hämtade ur Encyclopedia of Great Men in Israel, visar Witzum et al. att texten till Första Mosebok parar ihop rabbinernas namn med deras födelsedata bättre än vad som låter sig förklaras med slumpen: p-värdet visade sig bli 0,000016. Publiceringen av arbetet föregicks av en mycket omfattande refereegranskning, där författarna bl.a. uppmanandes replikera sitt försök på en andra lista över rabbiner, något de genomförde med lika imponerande resultat. Redaktören Robert Kass kände sig fortfarande inte övertygad, men såg sig tvungen att acceptera artikeln för publicering; i en inledande kommentar i samma nummer heter det att ''we offer this as a puzzle to our readers''.

Fem år senare publicerades i samma tidskrift en artikel med titeln Solving the Bible code puzzle: McKay et al. [11]. Här dissekeras Witzums et al. arbete med enastående noggrannhet, och en rad dolda effekter av multipelinferenskaraktär dras fram som till fullo förklarar de låga p-värdena. McKay et al. genomför också ett stort antal illustrativa datorexperiment, och visar bl.a. hur Witzums et al. metod tillämpad på ett utdrag av motsvarande längd ur Tolstojs Krig och fred istället för på Första Mosebok ger lika goda resultat. Artikeln av McKay et al. är som helhet en mycket lärorik exposé över statistiska fällor som är lätta att förbise, och den borde om inte annat vara obligatorisk läsning för alla som tänker sig att någon gång syssla med data mining.

Teorin om bibelkoden hann aldrig nå någon utbredd acceptans i vetenskapliga kretsar; i detta avseende är exemplet i nästa avsnitt långt mer katastrofalt.

3. Rorschachtestet

Den schweiziske psykologen Hermann Rorschach utarbetade på 1920-talet ett psykologiskt test, där patienten konfronteras med ett antal ickefigurativa bläckplumpsbilder och ombeds ange vad dessa kan tänkas föreställa. Rorschach menade att en rad psykiska sjukdomstillstånd var möjliga att diagnostisera med hjälp av patientens svar. Testet vidareutvecklades och nådde gradvis allt större popularitet, främst i USA där det kring 1950 hade en position som ett av de mest använda och respekterade psykologiska diagnosinstrumenten. Ungefär vid denna tid började dock en kritik mot testet -- framför allt gällande avsaknaden av kontrollerade försök som styrker att det verkligen fungerar -- att växa sig stark. Några tillfredsställande svar kunde Rorschachförespråkarna inte ge, och 20 år senare var testet mer eller mindre utdömt.

Under 70- och 80-talen började emellertid Rorschachtestets popularitet på nytt att ta fart, främst tack vare amerikanen John Exners energiska systematiserings- och PR-arbete. Idag har testet en mycket framträdande ställning i USA: det ingår i flertalet utbildningsprogram i klinisk psykologi, och praktiseras av cirka en tredjedel av landets rättspsykologer och psykologer aktiva i klinisk verksamhet.

Emellertid vilar testet alltjämt på mycket lös vetenskaplig grund, vilket visas i boken What's Wrong with the Rorschach? av Woods et al. [13]. Nästan alla positiva resultat härrör från Exners forskargrupp, men är behäftade med svår statistisk slafsighet och andra brott mot god vetenskaplig sed, och har visat sig vara omöjliga för andra forskare att replikera. Bland annat har en rad oberoende undersökningar visat att testet diagnostiserar cirka 75% av normala individer som psykiskt sjuka -- de fasansfulla följder detta kan få (och får!) i rättssammanhang är inte svåra att föreställa sig. Ett mindre antal Rorschachvariabler har i tillförlitliga studier visats vara korrelerade med storheter som t.ex. intelligens, men korrelationerna är alltför svaga för att testet skall kunna bli till någon egentlig nytta i kliniska sammanhang.

Hur kan då en metod som så gott som fullständigt saknar vetenskapligt stöd kunnat slå rot på detta vis? Woods et al. ger en fascinerande historik, där vi får ta del av hur brister i vetenskaplig stringens samverkar med andra faktorer som önsketänkande och överdriven auktoritetstro (ett tecken på det senare är att de 10 bilder Rorschach tog fram, än idag är de som uteslutande används). Ett återkommande tema i den alltigenom mycket läsvärda boken, är spänningen mellan å ena sidan dem som önskar implementera kontrollerade vetenskapliga försök, och å andra sidan dem som hävdar att Rorschachtestet måste förstås holistiskt och inte kan analyseras i sådana väldefinierade beståndsdelar som ett vetenskapligt studium kräver.3 Eller, om man så vill, kampen mellan upplysning och romantik.4

4. Tas statistiken på för stort allvar?

Hittills har jag diskuterat förekomsten av bristande statistisk (och mer allmänt vetenskaplig) stringens bland kollegor i andra ämnen, och manat till kamp för bättring. Låt mig nu helt fräckt vända på steken: kanske tas statistiken i många sammanhang på för stort allvar, med konsekvensen att statistiska metoder appliceras där de inte hör hemma.

Ett trivialt exempel är de kursenkäter som vi universitetslärare ständigt utsätter oss för. Jag har aldrig begripit vad jag skall ha för nytta av att veta huruvida andelen studenter som klassificerar mina föreläsningar som ''bra eller mycket bra'' är 62% eller blott 46%. Långt användbarare finner jag det att ha ett fördjupande samtal om min lärarinsats med en eller två (engagerade) studenter -- strunt samma om de råkar vara ''statistiskt representativa'' eller inte.

En liknande övertro på statistiken har jag vid upprepade tillfällen stött på bland forskare inom pedagogik och didaktik.5 Låt mig som exempel anföra en diskussion jag förra året hade med pedagogen NN6, där jag framhöll (det uppenbara faktum) att många studiebegåvade elever blir gravt understimulerade i dagens matematikundervisning, och han envist höll fast vid att min uppfattning, i avsaknad av vetenskapligt empiriskt belägg, var ''en åsikt så god som varje annan''. Om man på NN:s vis anser att inget påstående om skolan, hur självklart det än må förefalla, kan tas för givet med mindre än att det är vetenskapligt belagt i en empirisk studie, så vingklipper man sig själv som tänkare och beslutsfattare. Själv har jag visserligen läst en hel del sådana studier inom utbildningsområdet, men min bild av skola och undervisning grundar sig likväl bara till en mindre del på dessa. Annan kunskap har jag från t.ex. de lärare jag möter, och från vänner och kollegor som har barn i skolåldern. Och jag gick ju själv -- för inte så förskräckligt många årtionden sedan -- nio år i grundskola och tre år i gymnasiet, och kunde då se tydliga exempel såväl på lyckade som på misslyckade pedagogiska grepp. Självklart skall jag/vi använda oss även av den sortens kunskap i resonemangen kring utbildningsfrågor!

Det bör tilläggas att empiriska undersökningar avsedda att belägga påståenden som på andra grunder kan inses vara sanna ibland är inte bara onödiga, utan olämpliga eller rentav omöjliga. En statsvetare skulle t.ex. inte ha några svårigheter att ge bestickande argument för att påståendet ''Goda diplomatiska förbindelser mellan kärnvapenmakter minskar risken för globalt kärnvapenkrig'' är sant, men att visa detta empiriskt går knappast -- till det har vi alltför få planeter till vårt förfogande.

Ett annat exempel: Det finns i mitt tycke oantastliga resonemang till stöd för påståendet ''Lärarkandidater tenderar att bli bättre matematiklärare om de får läsa universitetsmatematik''.7 Men hur visar man detta empiriskt? Jag känner till ett försök till sådan studie (Lester et al. [9]), där författarna menar sig visa att det finns ett positivt orsakksamband mellan att ha läst universitetsmatematik, och ett antal indikatorer som de menar karaktäriserar en bra matematiklärare. Men deras resonemang håller tyvärr inte: vad de observerat är blott en korrelation, och inte ett orsakssamband. Denna korrelation skulle i princip t.ex. kunna härröra sig från en tendens hos talangfulla matematiklärarkandidater att läsa mer universitetsmatematik än sina svagare kamrater. Man kan tänka sig mer sofistikerade försöksupplägg för att särskilja dessa (båda helt rimliga) orsakssamband. Jag har emellertid inte lyckats tänka ut något upplägg som åstadkommer detta utan att bruka orimligt våld på försökspersoner, t.ex. genom att randomisera vilka blivande matematiklärare som skall få lov att läsa matematik.

5. Agnarna och vetet

Den vakne läsaren har kanske vid det här laget hunnit uppmärksamma en allvarlig svaghet i mitt resonemang. De argument jag anfört mot att statistiskt söka belägg för nyttan av diplomati respektive universitetsmatematik kan ju -- vilket även skett -- utan svårighet omformas till argument mot att empiriskt söka utreda Rorschachtestets kliniska validitet. Så hur skiljer man det goda avvisandet av statistiska metoder, från det dåliga?

På detta har jag inget annat svar än att vi tvingas att från fall till fall ta ställning till de föreliggande sakargumenten. Detta leder naturligtvis oundvikligen till en och annan kontrovers och meningsmotsättning. Men detta torde vi under alla omständigheter få leva med: idén om en samling föreskrifter som en gång för alla eliminerar all subjektivitet och alla tolkningstvister från vetenskapen är så utopisk att den knappast förtjänar att tas på allvar.

Fotnoter

1. Jag har själv gjort enstaka inhopp, varav ett par nått offentlighetens ljus [2].

2. Den som söker andra drastiska exempel på hur illa det kan gå när den statistiska analysen är hemmasnickrad eller rentav uteblir, kan t.ex. hitta ett och annat i tidskriften [5] och antologin [6].

3. Så t.ex. anklagade den tidens ledande Rorschachförespråkare Bruno Klopfer 1939 dem som sökte ett mer vetenskapligt förhållningssätt för att vilja ''offra Rorschachmetodens inneboende potential på den fetischistiska gudinnan Statistiks altare'' (Klopfer [8], citat hämtat ur [13]).

4. Den som önskar en framställning som i längd interpolerar mellan den 446-sidiga boken [13] och den korta redogörelse jag är tvungen att inskränka mig till här, kan vända sig till Lilienfeld et al. [10] eller Crews [1].

5. Företrädare för dessa ämnen är i detta avseende säkert inte värre än de i många andra ämnen. Att jag drar fram just pedagoger här beror helt enkelt på selection bias -- pedagogik och skolfrågor är ämnen jag ägnat särskilt intresse på senare år.

6. Jag låter honom slippa skylta med namn i detta sammanhang.

7. Dessa resonemang faller dock utanför ramen för denna uppsats. Den läsare som på allvar ifrågasätter mitt påstående uppmanas konsultera t.ex. Ingelstam [7].

Referenser

[1] Crews, F. (2004) Out, damned bolt! New York Review of Books 51, no. 12.

[2] Dagens Nyheter, 5 jan 2003, s A4; dito, 27 jan 2004, s A4.

[3] Dagens Nyheter, 24 juli 2004, s A1.

[4] Drosnin, M. (1999) Bibelkoden, Bokförlaget DN, Stockholm.

[5] Tidskriften Folkvett.

[6] Hansson, S.O. och Sandin, P. (2000) Högskolans lågvattenmärken, Natur och Kultur, Stockholm.

[7] Ingelstam, L. (2004) Kampen om kunskapen, Lärarförbundet, Stockholm.

[8] Klopfer, B. (1939) Shall the Rorschach method be standardized? Rorschach Research Exchange 3, 45--54.

[9] Lester, F., McCormick, K. och Kapusuz, A. (2003) Beliefs and conceptions about the nature of mathematics and the learning of mathematics: important aspects of mathematics teaching, preprint.

[10] Lilienfeld, S.O., Wood, J.M., och Grab, H.N. (2001) What's wrong with this picture? Scientific American, May issue.

[11] McKay, B., Bar-Natan, D., Bar-Hillel, M. och Kalai, G. (1999) Solving the Bible code puzzle, Statistical Science 14, 150--173.

[12] Witztum, D., Rips, E., and Rosenberg, Y. (1994) Equidistant letter sequences in the Book of Genesis, Statistical Science 9, 429--438.

[13] Wood, J.M., Nezworski, M.T., Lilienfeld, S.O. och Grab, H.N. (2003) What's Wrong with the Rorschach? Science Confronts the Controversial Inkblot Test, Jossey-Bass, Chichester.


Last modified: Tue May 20 09:00:15 MET DST 2003