Connect with us

Hi, what are you looking for?

Science ReportScience Report

Debat

Selv ikoniske studier kan tage fejl: Derfor bør reproducerbarhed være kernen i forskningspolitik

DEBAT. Når forskning bliver til politik, må selv de mest citerede resultater kunne tåle kritisk efterprøvning. Det skriver svensk professor med baggrund i en ny analyse der viser, hvordan billedet i et af de mest indflydelsesrige studier i nordisk forskningspolitik ikke er så entydigt, som det ofte fremstilles.

Når enkeltstudier får kanonisk status og bruges som begrundelse for reform, bør de tåle efterprøvning, mener Ulf Sandstöm. Foto: KTH Royal Institute of Technology

Af Ulf Sandström, Professor emeritus, KTH Royal Institute of Technology i Stockholm

I nordisk forskningspolitik findes der studier, som får en særlig status. De citeres i udredninger, strategier og handlingsplaner – ikke kun som forskning, men som begrundelse for reform.

Når et resultat først er blevet en “klassiker”, kan det gradvist forvandles fra en empirisk påstand til et fælles referencepunkt: noget, vi taler ud fra, og som dermed også former, hvilke tiltag der fremstår oplagte.

Et tydeligt eksempel er Wennerås & Wolds kommentar i Nature fra 1997 om “nepotisme og sexisme i peer review”. Den blev et vendepunkt i debatten om køn og meritokrati i forskningsfinansiering – ikke mindst fordi budskabet var kvantitativt og let at huske: kvinder måtte være “2,4 gange mere meriterede” end mænd for at få samme kompetencevurdering i konkurrencen om postdoc-stipendier fra det svenske Medicinska Forskningsråd (MFR).

Netop fordi sådanne fund får anseelig politisk og institutionel betydning, opstår et grundlæggende forskningspolitisk spørgsmål: Hvad sker der, når ikoniske resultater efterprøves med mere realistisk modellering af selve vurderingssystemet?

Når evidens bliver styringsgrundlag

I Danmark – som i Sverige og Norge – bygger forskningspolitik ofte på en kombination af faglige råd, udredningstradition og institutionelle processer: evalueringer af virkemidler, strategiudvikling og dialog mellem ministerium, forskningsråd og universitetssektor.

Når en studie bruges som argument i mange år, bør den kunne efterprøves.

I et sådant system bliver forskning om forskning – peer review, bias og retfærdighed – særligt betydningsfuld, fordi den bruges som styringsgrundlag for opslag, paneler, kriterier, habilitet og legitimitet.

Her bliver reproducerbarhed vigtig – ikke blot som et metodisk ideal, men som en forskningspolitisk ressource. Når en studie bruges som argument i mange år, bør den kunne efterprøves. Hvis ikke, kan reformer blive sårbare: enten fordi de rammer den forkerte mekanisme, eller fordi kritik af et ikonisk fund kan bruges til at undergrave legitime tiltag mere generelt.

Reproducerbarhed er også et spørgsmål om tillid

Reproducerbarhed omtales ofte som noget teknisk – statistik, modeller og data. I praksis handler det også om tillid: tillid til at peer review er sagligt, at paneler er kompetente, og at beslutninger kan forklares.

I en nyligt publiceret artikel i Quantitative Science Studies gennemførte vi den første fulde reproduktion og reanalyse af Wennerås & Wolds empiriske materiale med udgangspunkt i arkiverede kilder fra MFR.

Artiklen er open access her

Vi kunne i store træk reproducere beregningerne, som de fremstår i Nature (1997). Det betyder, at sagen ikke handler om “opfundne tal”. Men reproduktion er ikke det samme som validitet. Når man går tættere ind i, hvordan vurderingssystemet faktisk var organiseret – og hvordan data blev aggregeret – ændrer billedet sig.

Heterogenitet: et undervurderet styringsproblem

Det, der ofte overses i bias-debatter, er at vurderingssystemer er heterogene: fagområder, paneler og publiceringskulturer følger ikke samme logik. Nordiske forskningsråd organiserer vurdering via tematiske programmer, faglige porteføljer og paneler. Det er rationelt: forskning er mangfoldig, og peer review skal forankres fagligt. Men det betyder også, at vurderinger ikke uden videre kan sammenlignes på tværs af paneler og discipliner.

I MFR-materialet blev ansøgninger vurderet af forskellige paneler – kliniske, prækliniske og mere adfærds-/samfundsorienterede – hvor publiceringsmønstre og merit-signaler var forskellige. En præklinisk forsker publicerer ofte mange artikler i internationale tidsskrifter, ofte med mange medforfattere.

Læs også: Dansk forskning i verdensklasse? Det afhænger af, hvordan man tæller

Kliniske områder kan have andre rytmer og andre kanaler. Og visse områder havde i 1990’erne stærkere nationale publiceringstraditioner. Bedømmelsesudvalg kender disse forskelle og vurderer typisk kvalitet relativt inden for eget felt.

Problemet opstår, når man samler sådanne forskellige evalueringskontekster i én fælles analyse uden at modellere, at de faktisk er forskellige “evalueringsregimer”. Så kan man skabe mønstre, der ligner systematisk bias, men som i realiteten afspejler forskelle i panelpraksis og fagstruktur.

Hvad vi fandt i reanalysen

Wennerås & Wold identificerede et mønster i vurderingen af “kompetence”, som de tolkede som kønsdiskrimination. Vi tager spørgsmålet alvorligt, men undersøger, hvordan resultatet ændrer sig, når man eksplicit tager højde for variation mellem paneler og fag.

Når vi modellerer heterogenitet mellem fagområder og bedømmelseskomitéer, bliver den berømte “2,4”-effekt kraftigt reduceret og forsvinder i hovedsagen. Tilsvarende forsvinder også den rapporterede nepotismeeffekt under de samme robustheds- og pålidelighedstjek, når struktur og sammenlignelighed håndteres eksplicit.

Det betyder ikke, at kønsbias aldrig forekommer i forskningsfinansiering. Men det betyder, at det ikoniske kvantitative udsagn ikke kan bruges som generelt bevis uden tydelige forbehold om datastruktur og sammenlignelighed.

At efterprøve en klassiker er ikke et angreb på ligestillingsarbejde. Tværtimod

En tidlig dansk oppfølging kom allerede i 1998, da Analyseinstitut for Forskning (Vestergaard & Taarnby, 1998/2) gennemgik uddelinger fra Statens Sundhedsvidenskabelige Forskningsråd med en success-rate-tilgang.

I efterårsuddelingen 1997 var kønsforskellen lille: omkring 27 pct. af kvinders ansøgninger og 29 pct. af mænds blev imødekommet.

Læs også: Open Access blev kuppet af de store forlag – med en ny model kan vi tage kontrollen tilbage

Rapporten henviser samtidig til beslægtede undersøgelser i andre lande (bl.a. Storbritannien, Frankrig og Nederlandene), hvor kønsforskelle i success rate typisk var små eller kontekstavhængige. Den bemærker også højere succes blandt ansøgere med personlige kontakter til rådsmedlemmer, men advarer mod at tolke dette som direkte bevis på nepotisme uden nærmere forklaring, da det også kan afspejle kendskab til procedurer og vurderingskriterier.

Institutionel forankring og offentlig gennemslagskraft

Det er også værd at bemærke, at opfølgende studier efter 1997 har haft forskellig institutionel forankring og sigte. Flere analyser blev bestilt eller finansieret af forskningsråd og udført af interne analytikere eller nært tilknyttede miljøer – ofte med fokus på success rate og procesindikatorer.

Reformer, der skal holde, må hvile på evidens, der tåler efterprøvning.

Sådanne studier kan give vigtig intern læring, men de får ofte en anden offentlig rolle end en analyse, der fremstår mere uafhængig og konfliktfyldt.

Wennerås & Wolds studie blev derimod publiceret i et højt profileret internationalt tidsskrift og fik gennemslag i en tydelig politisk kontekst i Sverige, hvilket bidrog til en mere mobiliserende offentlig reception.

Sagen peger på tre generelle læringer, som er relevante også i dansk sammenhæng:

  1. Skel mellem “disparitet” og “bias”. Forskelle i udfald kan skyldes bias, men også faglig sammensætning, panelpraksis, publiceringsnormer og strukturelle forhold. Politik bør rette sig mod mekanismer – ikke kun udfald.
  2. Efterprøvbarhed bør vægte højere, når forskning bruges i policy. Når en studie får stor politisk betydning, bør kravene til metodisk klarhed, dokumentation af datastruktur og gennemsigtighed være højere – ikke lavere.
  3. Arkiver og institutionel hukommelse er undervurderede ressourcer. Når historiske data om vurderingspraksis findes og kan analyseres ansvarligt, giver det mulighed for kollektiv læring: Hvad virker? Hvad skaber skævheder? Og hvilke reformer har faktisk effekt?

At efterprøve ikoner styrker reform

At efterprøve en klassiker er ikke et angreb på ligestillingsarbejde. Tværtimod: reformer, der skal holde, må hvile på evidens, der tåler efterprøvning. Når ikoniske fund reanalyseres med bedre data og mere realistiske modeller af institutionel struktur, bliver resultatet ofte mere nuanceret – men også mere brugbart for styring.

Nordisk forskningspolitik bygger på tillid. Og tillid forudsætter, at de mest citerede og mest styrende studier kan tåle kritiske spørgsmål. Når evidens bliver politik, må evidensen kunne efterprøves.

Forsiden lige nu:

Vi skal forske mere i pesticider og veje væk fra dem

KOMMENTAR. Danmark mangler forskning i pesticiders påvirkning og i løsninger, der kan forebygge brugen. De grønne forskningsmilliarder bør derfor målrettes dette område, mener Rådet for Grøn Omstilling.

Seneste artikler:

ESG er hoppet ud af bæredygtighedssiloen

ESG-BAROMETER. Selv om EU Kommissionen trådte på bremsen med omnibuspakken er ESG langt fra død. Men det er afgørende, at bæredygtigheden kobles til en business case, lød konklusionen, da ESG Barometer 2025 blev præsenteret.

Something went wrong. Please refresh the page and/or try again.

Du er logget ind som

Discover more from Science Report

Subscribe now to keep reading and get access to the full archive.

Continue reading