samfund

Alt for mange forskere misbruger statistisk metode

Psykologisk tidsskrift bandlyser helt brug af p-værdi i dets publikationer

Af - 1. februar

Publikationspresset gør, at utroligt mange publikationer ender med at være helt uden videnskabelig værdi. Krydret med en ringe eller slet ingen indsigt i anvendt statistik betyder det, at mange artikler i bedste fald er spild af tid.

Det vurderer professor i psykologi ved Aarhus Universitet Ole Steen Kristensen. Årsagen skal findes i brugen af den statistiske term p-værdien. Den kan bruges til at finde statistisk korrelation mellem to størrelser.

– Du kan ikke konkludere noget som helst brugbart ud fra en p-værdi alene. Den viser ikke kausalitet. Når jeg ser det i en artikel, stopper jeg simpelthen med at læse den, siger han.

Nogle har forsøgt at sætte tal på, hvor meget p-værdien bruges som argument i den videnskabelige litteratur. Forskere fra Tilburg Universitet i Holland undersøgte intet mindre end 30.710 videnskabelige artikler i anerkendte psykologiske tidsskrifter. Her var p-værdien nævnt mere end 250.000 gange. Derudover var der regnefejl i 2.470 p-værdier, som var opgivet til at være præcis 0,05. Og overordnet set overrasker det ikke Ole Steen Kristensen.

– Jeg har tidligere oplevet, at der er nogle, der bare sidder og fisker efter p-værdier og krydser alt med hinanden. Den type fiskeri er ret udbredt. Det er vildt problematisk at gøre det sådan, siger han.

Kun en tåbe frygter ikke statistikkens kringlede finurligheder

Netop brugen af p-værdien som næsten eneste videnskabelige belæg for en påstand, fik sidste år Applied Social Psychology til helt at bandlyse brugen af p-værdi i artikler.

Da den britiske statistiker Ronald Fisher udviklede metoden tilbage i 1920’erne, var hans pointe heller ikke, at p-værdien skulle bruges til at give dig et endegyldigt svar.

Den var – og er – ment som et fingerpeg om, hvorvidt det kan betale sig at foretage yderligere eksperimenter, siger lektor i statistik ved Aarhus Universitet Lars Nørvang Andersen.

Hvad hulen er en p-værdi?
Kun en tåbe frygter ikke statistikkens kringlede finurligheder. Derfor er det bedst at tage et eksempel fra den virkelige verden for at forklare, hvad en p-værdi er.

Da man i 1845 skulle navngive byen Portland i Oregon, USA, skete det ved at “slå plat og krone” med en penny. Før hed byen The Clearing, men to pionerer, Asa Lovejoy (fra Boston) og Francis Pettygrove (fra Portland, Maine), ville opkalde den efter deres respektive hjembyer. Francis Pettygrove vandt konkurrencen, og penny’en er i dag udstillet på Oregons historiske museum.

Men var mønten helt “tilfældig”? En måde at analysere det på, er at lave mange kast med mønten – hvis museet ellers vil give lov.

Jo større forskellen i antal plat og krone, jo større er sandsynligheden for, at mønten er en snydemønt.

Vores hypotese er, at mønten var en snydemønt. Det er svært at teste, så i stedet bruger vi den modsatte hypotese, “nul-hypotesen”, at mønten er reel.

Så er det med at vælge et antal kast. For nemheds skyld siger vi, at den kastes ti gange.

Resultatet blev plat ni gange og krone én gang. Jo større forskellen i antal plat og krone, jo større er sandsynligheden for, at mønten er en snydemønt.

Husk: Hvis mønten er helt tilfældig, er det muligt at ramme ni gange plat og krone én gang. Sandsynligheden for at få plat ni gange og en krone – eller det, der er værre (f.eks 10 krone) – er blot 0,02 (eller 2 pct.). Men hvor skal man så sætte grænsen?

Den grænse, som mange forskere bruger inden for f.eks. medicin og psykologi, kaldes p-værdien. Her sætter man ofte grænsen ved 0,05. Det vil sige, at får man resultater ud, som er mindre end 5 pct. sandsynlige i forhold til nul-hypotesen, vil man sige, nulhypotesen er falsk. Vi fik i vores resultat en p-værdi på 0,02.

Det kan give to konklusioner efter de ti kast.

  1. Mønten er helt tilfældig – vi var blot heldige/uheldige med at ramme en stime.
  2. Mønten er ikke reel, da vi fik et resultat, som er mindre sandsynligt end 0,05.

Men fordi vi ikke kan påvise, at mønten er reel, betyder det ikke, at vi dermed har påvist, at den er en snydemønt. Måske var vi bare uheldige? Det er netop præmissen for p-værdien. Man må vælge at tro på enten nr. 1 eller 2.

P-værdien er derfor brugbar, men man skal bruge den med omtanke

– Havde du fået fem krone og fem plat, ville du nok hurtigt konkludere, at der ikke er mere grund til at undersøge, om mønten er falsk. P-værdien er derfor brugbar, men man skal bruge den med omtanke, siger Lars Nørvang Andersen. Han er lektor i statistik ved Aarhus Universitet.

Vores eksperiment kan altså ikke fastslå, om Francis Pettygrove snød med mønten. For at blive mere sikker i konklusionen er det derfor naturligt at gentage eksperimentet. Det bliver bare ikke altid gjort i forskningsverdenen, når forsøgene er mere komplekse.

Hvad kan man så bruge den til?
I f.eks. psykologi eller andre videnskaber, som har med mennesker at gøre, er det svært at afgrænse sit forsøg. Der kan der være mange forskellige ting, som du ikke er herre over, der kan påvirke dine resultater og dermed påvirke p-værdien, siger Lars Nørvang Andersen.

Dette er ligeledes blevet problematiseret i flere indlæg hos et af de mest anerkendte tidsskrifter af dem alle: Nature.

Men dermed kan man ikke sige, at p-værdien er ubrugelig – tværtimod. Den er utroligt brugbar, hvis man som Ole Steen Kristensen arbejder med enorme datasæt fra registre, hvor en masse forskellige variable indgår.

Når jeg finder en ”god” p-værdi, ved jeg, at jeg måske skal undersøge en sammenhæng nærmere. Det er så der, jeg går i gang med den avancerede statistik

– Vi skelner mellem deskriptiv og avanceret statistik. Den deskriptive, så som p-værdi, bruger man til at få et hurtigt overblik. Desværre er der meget forskning, der bliver der. og så ikke kommer så meget længere i databehandlingen, siger Ole Steen Kristensen.

– Når jeg finder en ”god” p-værdi, ved jeg, at jeg måske skal undersøge en sammenhæng nærmere. Det er så der, jeg går i gang med den avancerede statistik, forklarer han.

Hvis man bruger p-værdien forkert, kan man hurtigt komme til letkøbte og morsomme konklusioner. Således kan man finde en sammenhæng mellem, hvor mange film Nicolas Cage har medvirket i per år, og antallet af mennesker, der hvert år drukner i en swimmingpool. Eksemplet er taget fra en hjemmeside, der er helliget morsomme eksempler på ting, der korrelerer.

Selv New England Journal of Medicine har gjort det
Et andet og seriøst eksempel kan findes i selveste New England Journal of Medicine, der for år tilbage bragte en artikel, der endte med at nå massemedierne verden over. Her kunne man læse, at forskere havde fundet en statistisk korrelation mellem indtagelsen af chokolade i et land, og antallet af nobelpriser dets forskere tildeles.

Men hvorfor overhovedet laven den slags artikler?

– Jeg kan jo kun gætte på, hvad det skyldes, men man kan ikke se bort fra,  at forskerne verden over generelt er pressede til konstant at publicere, siger Ole Steen Kristensen.