Virkeligheden er ikke en perfekt terning

Der findes et fænomen inden for statistikken, som man ikke så gerne taler om: hyppigheden af sjældne udfald falder, jo flere data der haves. Det giver ingen mening, ingen forstår det, og klassiske statistiske tests kan ikke håndtere sagen.

Læs hele historien på ing.dk


Viel Geschrei und wenig Wolle sagde bonden da han klippede sin so. Sådan kan man efterhånden også beskrive den moderne forsker og hans arsenal af eksperimentelle data. Til at begynde med viser de måske opsigtsvækkende resultater og stærke korrelationer, men jo oftere man gentager eksperimentet, jo mere skrumper de store effekter til det ubetydelige.

Tænk på de storsælgende antidepressive lægemidler som Fontex og Cipramil, der virkede fint for 10 år siden. I dag er deres beviselige effekt skrumpet til en tredjedel eller mindre. Tænk på smitsomheden af svineinfluenzaen aH1N1, der faldt, jo større epidemien blev. Tænk på kold fusion. Tænk på antallet af fatale trafikuheld per capita, som aftager med antallet af bilister. Tænk på forretningsverdenen, hvor man længe har vidst, at profitten har tendens til at falde med kapitalvolumenet, uden at man egentlig ved hvorfor.

Hvad er det der sker? Der synes at eksistere en henfaldstid for sjældne fænomener som om det var radioaktivt materiale. Sunde dobbeltblinde eksperimenter med signifikante resultater kan ofte ikke gentages. Protokollerne er i orden, data korrekt indsamlede, fejlkilder de samme – men alligevel er udfaldene dårligere end før. De signifikante data forsvinder som dug fra solen. Utallige forskere har oplevet, hvordan deres eksperimenter simpelthen mister deres reproducerbarhed, og hvis der er noget, som per definition er uvidenskabeligt, er det ikke-reproducerbare data.


Oversanselige evner - esp
Historisk set har videnskaben kendt til fænomenet længe. Men i stedet for at kaste et kritisk blik på den videnskabelige metode, har man som regel blot forkastet de eksperimenter, der udviste den slags data-inflation, og begyndt at mistænke forskerne for fusk. Ikke usandsynligt er dette en grund til, at de såkaldt ’bløde’ videnskaber som sociologi, psykologi og medicin har fået et dårligere ry end fortjent.

Faktisk stammer de første beretninger om denne tabuiserede og endnu ikke navngivne effekt fra den ’alternative’ scene. Psykologen Joseph Banks Rhine fra Duke University udviklede i 1930’erne en test for telepati ved hjælp af de såkaldte Zener-kort, der består af 25 kort med et af fem forskellige symboler printet på den ene side af hvert kort. Forsøgspersoner skulle gætte, hvilket symbol der var på kortene. Som forventet ramte de plet i cirka 20 pct. af tilfældene. Studenten Adam Linzmayer, en helt almindelig arbejdersøn fra New Jersey, var en undtagelse. Han ramte rigtigt i 36 pct. af tilfældene. Sandsynligheden for at sådan noget sker, er en ud af to millioner. Men Linzmayer gjorde det tre gange i træk, og i et uofficielt forsøg i Rhines bil, ramte Linzmayer 21 ud af 25. Dette burde kun ske i ét ud af 92.027.922.393 forsøg.

Rhine var begejstret og skrev flere forskningsartikler om eksperimentet. Men da han senere ville reproducere sine resultater, kunne Linzmayer ikke mere. Han havde mistet evnen. Senere forsøgte Rhine sig med andre ’medier’, men han måtte se det samme tab af evne ske igen. I mellemtiden opfandt Rhine begrebet parapsykologi, inspirerede utallige forsker til at eksperimentere med telepati, telekinese og andre oversanselige evner (esp), og var samtidig en af de første, der beskrev dette forfald af ’spændende’ data i en metaanalyse i 1940.

Man skal huske på, at den videnskabelige viden om esp var meget begrænset i 1940’erne og 50’erne. Derfor kunne forskere stadig håbe på at offentliggøre data fra deres blinde eksperimenter i respekterede fagblade som Nature (dobbeltblinde eksperimenter var endnu ikke opfundet). Men efterhånden blev det klart, at det eneste disse velkontrollerede eksperimenter viste, var, at der findes et stabil og uforståelig fald i antallet af ’overnaturlige’ fænomener: de starter med at være mange, men udviskes til sidst til at være uskelnelige fra støjsignaler.

Den gængs forklaring på fænomenet er den såkaldte publikationsbias, også kaldt ’file-drawer’ effekt: kun de eksperimenter, som viser en positiv korrelation bliver publiceret, mens dem, som ikke viser nogen effekt (eller en negativ effekt) forbliver i skuffen. Problemet er dog, at publikationsbias umuligt kan være hele forklaringen. Mange eksperimenter er vitterlig blevet gjort under velkontrollerede forhold, hvor alt er blevet publiceret. Effekten viser sig stadig.

Heller ikke de store tals lov, dvs. en simpel konvergens hen imod et gennemsnit, er en tilstrækkelig forklaring. Det kan f.eks. ikke forklare, hvorfor der er så mange usandsynlige hændelser til at starte med. Den amerikanske statistiker John Ioannidis fra Tufts University mener, at forskere altid jagter signifikans, og at årsagen må findes i en dybereliggende bias end en publikationsbias. En slags psykologisk refleks hos forskeren, som bider sig fast i en hvilken som helst korrelation og bliver blind for alt andet.

Mønstre overalt
I en meget læseværdig artikel i det nye nummer af The New Yorker skriver Jonah Lehrer om andre forskere, har oplevet fænomenet. Den danske zoolog Anders Pape Møller fra Uppsala Universitet sparkede f.eks. i 1991 en hel serie af eksperimenter i gang, da han opdagede, at svalehunner har en langt større tendens til at parre sig med symmetriske svalehanner end med hanner med en asymmetrisk fjerdragt.

Inden længe opdagede man fænomenet (kaldt fluktuerende asymmetri) hos alt fra bananfluer til mennesker, men jo flere undersøgelser der kom, jo mindre blev effekten. I 1993 var det ti ud af ti artikler, der bekræftede fænomenet, i 1994 otte ud af 14, i 1995 fire ud af otte, og frem til 1998 var det tre ud af 12. Og selv dem, som understøttede Møllers teori, så korrelationen falde med 80 procent.

En andet eksempel fra New Yorker-artiklen er psykologen Jonathan Schooler, som i de sene 1980’er opdagede, at vi mennesker har tendens til at glemme ting, som vi har beskrevet med ord. Han kaldte fænomenet ’verbal overshadowing’, og blev berømt på det. Men samtidig blev det sværere og sværere for ham at gentage sine egne eksperimenter. Han gjorde præcis det samme som før, men effekten udeblev jo mere han forsøgte. Schoolers private betegnelse for denne statistiske mærkværdighed var ‘cosmic habituation’, og han indrømmer at den var meget frustrerende.

Forklaring søges
Selvom statistikere siden 1950’erne har udviklet dobbeltblindtests og funnelgrafer, er der altså stadig noget underligt på færde. Ifølge Dean M. Brooks fra Ekaros Analytical Inc. i Vancouver var den første, der tog problemet alvorligt den engelske matematiker og filosof George Spencer-Brown, der havde været kollega til Bertrand Russell og studeret under Ludwig Wittgenstein. Desværre er Spencer-Browns arbejde stort set glemt i eftertiden.

I bogen Probability and Scientific Inference fra 1957 foreslå Spencer-Brown, at alle disse typer af esp-eksperimenter ikke var andet end tilfædighedsmaskiner, og hans tanke var, at forfalds-effekten måske var tegn på en subtil defekt ved sandsynlighedsteorien som sådan. For at teste sin hypotese, gentog han Rhines klassiske Zener-kort eksperiment, men denne gang var det ikke en person, som skulle gætte, men et andet sæt Zener-kort, der skulle simulere forsøgspersonen, godt blandet. Det var smart, for på den måde blev alle eventuelle paranormale og subjektive komplikationer visket af bordet som irrelevante.

Eksperimentet viste den velkendte effekt: sjældne hændelser, som f.eks. at ramme rigtigt syv gange i træk, klyngede sig sammen i begyndelsen, men aftog med tiden. I et forsøg med kun 100 gæt ville den første fjerdedel have signifikant flere sjældne udfald (p<0,05) end den sidste fjerdedel. I længere forsøg var effekten endnu større. Da Spencer-Brown offentliggjorde resultatet i fagbladet Nature, var der kritik, men en uafhængig kontroltest bekræftede sagen. Mærkeligt nok blev Spencer-Browns arbejde hurtigt glemt.

I nyere tid er sagen dukket op igen - i en ny forklædning. Forskere som Herbert Simon, Benoit Mandelbrot og danske Per Bak opdagede nemlig, at naturen består hovedsageligt af denne type af distributioner (tænk på jorskælv, artsuddøen, skovbrande og trafikpropper). De udviser det man kalder ’selvorganiseret kritikalitet’ ved at være skala-invariante, og er kendetegnet ved at være væk fra dynamisk ligevægt, drevet af langsomme variable, hvor hyppigheden af hændelserne kan beskrives af en såkaldt powerlaw med en eksponent, der er karakteristisk for systemet.

Data fra den virkelige verden er ofte givet ved Benfords lov, Zipfs lov, Smeeds lov og lignende empiriske power-love – alle sammen kendetegnet ved at være et udpluk fra en dynamisk proces. Hvis Spencer-Browns eksperiment derfor er et udslag af ikke-ligevægtsdynamik, så er vores forståelse af, hvad et tilfældigt tal er, stadig alt for primitivt.

Som løsning foreslog Spencer-Brown i 1957 at teste tilfældighed ved ikke kun at bruge standardmetoden, nemlig at kigge på sekvensen af individuelle hændelser, som man definerer som (håber på er) uafhængige. Man skal også teste for uafhængigheden af grupper af hændelser (to et-taller i træk i forhold til andre totalskombinationer, tre seks-taller i træk i forhold til andre tretalskombinationer, etc.). Denne procedure vil afsløre, at korrelationer kan leve længe, og at ægte tilfældighedsmaskiner er meget (meget!) svære at lave i virkeligheden.

Helten hedder Edwin Jaynes
Ifølge Brooks findes der dog en god forklaring på, hvorfor Spencer-Brown og alle os andre ser hyppigheden af sjældne udfald falde, jo flere data der haves. Forklaringen blev faktisk givet samme år af fysikeren Edwin T. Jaynes i en artikel i Physical Review Series II, som Spencer-Brown formulerede problemet, og er siden blevet kendt som princippet om maksimal entropi - eller blot ’MaxEnt-teorien’.

MaxEnt går kort fortalt ud på at antage, at vores viden om et givent datasæt er så ufuldstændig, at vi må maksimere entropien af distributionen, for i det mindste at få et retvisende billede af vores uvidenhed. Det svarer lidt til når du bliver sendt i supermarkedet af din kone for at købe ind til aftensmaden, desværre uden at du har hørt efter, da hun fortalte, hvad der skal kokkereres. Kvik som du er, køber du de mest sandsynlige ting for de pengene, som hun har givet dig i hånden, for på den måde at maksimere muligheden for at ramme plet. Dette svarer til at maksimere sin entropi.

Det gode ved Jaynes tilgang er at den er komplet uafhængig af det konkrete fysiske system. Den har ikke nogen foretrukken kausalitet, og kan bruges i enhver situation, også i situationer, hvor data er genereret af en ukendt flux. Metoden kan derfor bruges til at luge ud i de ofte hjemmelavede sandsynlighedsfordelinger over fysiske processer, hvor forskeren har svært ved at adskille viden og uvidenhed. Den bruges allerede med stor succes inden for fysisk modellering og kvantemekanikken, men har endnu ikke fundet indpas inden for de statistiske signifikanstests (kaldet DIEHARD), der anvendes af lægevidenskaben og andre evidensbaserede forskningsområder.

Som et konkret eksempel, tag en terning og kast den rigtig mange gange. Teoretisk set vil MaxEnt-distributionen konvergere mod den klassiske distribution, idet vores uvidenhed om udfaldet er maksimeret ved at sætte sandsynlighederne for de seks sider ens med hinanden. 1/6 til hver. I det virkelige liv findes der dog ikke nogen perfekt terning. Det kan være, at kanten mellem 5 og 6 er skæv og hjørnet mellem 1 og 2 og 3 er en smule fladt.

Antag at det gennemsnitlige udfald bliver 3,4, og ikke 3,5 som forventet ved en perfekt terning. Den klassiske statistiske test, som automatisk antager perfekte og uafhængige data, vil inden længe ”opdage” kold fusion og en mystisk kur mod cancer, som dog aldrig kan reproduceres. Princippet om maksimal entropi vil blot vise, at der er noget i gære, og få forskeren til at arbejde videre og tænke sig om en ekstra gang.

0 comments:

There was an error in this gadget