Nu sætter litteraturforskere Google til at læse bøgerne

Digitalisering af bøger og statistiske analyser af sprog er på vej til at blive et interessant supplement for forskere inden for humaniora og samfundsvidenskab. Kritikere mener dog, at resultaterne skal tages med et gran salt – og at der stadig er for få digitaliserede bøger.


Læs hele artiklen med kommentarer på ing.dk

I flere hundrede år har litterater lavet små mærker, streger og æselører i bøger for at fortolke deres kulturs største værker og opspore endnu ukendte detaljer. Lingvister tog omhyggeligt notits, hver gang et udsagnsord blev bøjet på en ny måde, og historikere tog en note, når et ukendt navn blev nævnt i annalerne.

De gør det stadig. Men i disse Google-tider er en helt anderledes metode begyndt at blive taget i brug. Det er ikke den nærlæsende metode, men den ekstremt ikke-nærlæsende metode. En metode, hvor man faktisk ikke læser et eneste ord, men bare kaster alle ord ind i en stor digital maskine og så undersøger deres hyppighed, spredning og varians for usædvanlige kendetegn.

Og det virker. Ved at analysere tusinder af digitaliserede bøger kunne Franco Moretti fra Stanford University i USA f.eks. finde ud af, hvor ofte der bliver opfundet nye genrer i populærlitteraturen, eller mere profane ting, som f.eks. hvor mange ord hovedpersoner i engelske 1800-tals romaner i gennemsnit siger.

For nylig kunne Moretti præsentere en helt ny fortolkning af Shakespeares Hamlet og publicere den i fagbladet New Left Review. Ved at lave et diagram over plottet, der viser relationerne mellem stykkets karakterer, alene baseret på hvem, der taler til hvem, kunne han pludselig overskue en hel masse data og lave nye fortolkninger af Shakespeares stykke.


Det viser sig for eksempel, at Horatio står langt mere centralt end tidligere antaget. Man finder også ud af, at ud af dem, som både taler med Hamlet og Claudius, er der kun to, der overlever. Og man lærer, at Rosenkrans og Gyldenstjerne aldrig taler til hinanden.

Googles ngrams
Den uofficielle opfinder af den digitale humaniora er Erez Lieberman Aiden. Han kalder det ‘culturomics’. I årevis sad Aiden på biblioteket og nærlæste engelsksprogede bøger for deres uregelmæssige udsagnsord for at bekræfte mistanken om, at sjældne uregelmæssige verber har en hurtigere tendens til at blive regelmæssige end de hyppigt brugte uregelmæssige verber.

Han tog omhyggelige noter, hver gang der stod ‘helped’ i stedet for ‘holp’ – det gamle engelske ord for at have ‘hjulpet’ – og han samlede også data for ‘chided’ i stedet for ‘chode’, ‘dwelled’ i stedet for ‘dwellt’, ‘burned’ i stedet for ‘burnt’, ‘speeded’ i stedet for ‘sped’ – ja faktisk alle de uregelmæssige verber i det engelske sprog. Det var hårdt arbejde, mildt sagt.

Da Google gik i gang med at ville digitalisere bøger, sendte han dem en e-mail og fik et møde. Resultatet var Ngrams – et værktøj, der kan tegne simple grafer over den historiske udvikling af hyppigheden af ord eller fraser i (indtil videre) fem millioner bøger fordelt over otte sprog. Det svarer til fire procent af alle bøger, der nogensinde er blevet publiceret. Applikationen har vist sig at være et vigtigt første skridt i retning af at bruge eksisterende digitale teknikker som et nyt vindue ind i historien.

Man kan f.eks. se, hvordan censur påvirker populariteten af forfattere og kunstnere i forskellige lande. Da nazisterne censurerede den såkaldt ‘Entartete Kunst’, nazikritiske historikere og politikere, virkede det faktisk. Også USA’s censur af ‘The Hollywood Ten’, en gruppe af venstreorienterede manuskriptforfattere, skuespillere og instruktører i 1950’erne, kan tydeligt ses i graferne, ligesom Sovjetunionens censur af politiske modstandere og Kinas censur af alt, der relaterer sig til opstanden på Tiananmenpladsen i det centrale Beijing.

Googles Ngrams kan også bruges til at visualisere teknologiudviklingen, populariteten af madvarer, personer og videnskabsfolk og utallige andre kulturelle fænomener.

Også historiestuderende kan med fordel bruge Ngrams. De kunne f.eks. plotte følgende ord ind i grafen: ‘atom bomb, hydrogen bomb, Chernobyl, Three Mile Island, nuclear reactor, Manhattan Project, Hiroshima and Nagasaki’, og straks få et billede af, hvad der skete hvornår, og hvor stor kulturel betydning de enkelte hændelser fik.

Lingvisternes paradis
Men måske er det især sprogforskerne, der kan glæde sig over teknologien. Aidens eget bidrag til denne forskningsgren omhandler de tidligere nævnte uregelmæssige engelske verber, og hans analyse viser, at de uregelmæssige verber bliver regelmæssige med en hastighed der er ‘invers proportional med kvadratroden af deres frekvens’. Det hurtigste verbum er ‘chide’ (at skælde ud) som kun brugte 200 år på at gå fra primært at blive bøjet uregelmæssigt (‘chode’) til nu primært at blive bøjet regelmæssigt (‘chided’).

Til en vis grad har kvantitative metoder selvfølgelig altid haft deres plads – også i de ikke-naturvidenskabelige fag. Sprogforskningen har f.eks. længe brugt matematiske modeller og kvantitative analyser til at sammenligne sprog og sprogfamilier. Men arbejdet har været ekstremt omstændeligt og tidskrævende at udføre.

Med de mange nye databaser er der blevet åbnet for helt nye tilgange til feltet. For eksempel kunne den evolutionære psykolog Quentin Atkinson fra University of Auckland i New Zealand vise, at menneskets ‘ur-sprog’ stammer fra Afrika, og at den primære evolutionære komponent, der selekteres på, ikke er selve ordene, syntaksen eller grammatikken, men ordforrådet og antallet af fonemer (som bliver færre, jo længere væk sproget er fra sin oprindelse).

Også Michael Dunn og Stephen Levinson fra Max-Planck-instituttet for psykolingvistik i Holland samt Russel Gray og Simon Greenhill fra University of Auckland, New Zealand, kunne bruge de nye digitaliserede datasæt til at vise, at universel grammatik ikke er så universel endda, og at fælles grammatiske regler typisk kun gælder inden for en sprogfamilie, ikke mellem dem.

Desuden har Thomas E. Currie fra University College London analyseret lingvistiske data fra over 1.000 kulturer, som alle tilhører den samme sprogfamilie, kaldet de austronesiske sprog. Han kunne vise, at kulturernes politiske struktur i løbet af de sidste mange tusinde år korrelerer med kompleksiteten af deres sprog, og at store høvdingedømmer og stater kun kunne opstå via små skridt hen over en lang tidsperiode, hvorimod deres undergang og forfald kunne ske meget hurtigt.

Stadig mange fejl
Digital humaniora og culturomics er altså kvantitative analyser af store og historiske datasæt, der på en eller anden måde relaterer sig til kulturelle ting. Mens biologer og genetikere længe har været overbeviste om, at populationsdynamik og genetisk variation er nøglen til at forstå deres felt, bliver det blandt humanister dog stadig anset som obskurt, grænsende til det pinlige, at bruge sådanne teknikker på det skrevne ord. Man får jo ikke en fornemmelse af, hvad Hans Christian Andersen kan med sproget bare ved at kværne hans tekster på en computer og opløse dem i et statistisk syrebad.

Men måske gør man alligevel. I lighed med Franco Morettis analyse af Hamlet kunne man sagtens forestille sig, at en netværksanalyse af H.C. Andersens eventyr ville afsløre nye ting om hans skriveteknikker eller temavalg. En dansk ph.d. søges.

Når man har fået en hest i gave, er det første man gør at kigge den i munden, gå lidt rundt og se den an. Så der går nok lidt tid, før Ngrams og de andre digitale teknologier for alvor vil blive brugt som supplement i den humanistiske forskning. Med hensyn til Googles Ngrams viser det sig desværre også, at der stadig er en masse små detaljer, som mangler eller er forkerte. Der er fejl og ufuldstændige informationer i de tilhørende metadata, og ifølge Tim Schwartz fra University of California er antallet af digitaliserede bøger stadig for lille til at lave pålidelige statistiske analyser, der siger noget om pulsen i kulturen. Magasiner og aviser ville være en meget bedre basis end bøger, siger han.Elise E. Morse-Gagné fra Tougaloo College i USA mener også, at statistikken skal tages med et gran salt. Når Aiden f.eks. hævder, at størrelsen af det engelske sprog er vokset med 70 procent i løbet af de sidste 50 år, så kan det skyldes mediet, og ikke ordene:

»Når forskere pludselig finder flere fodaftryk af dinosaurer i en bestemt historisk periode, behøver det ikke at betyde, at der var flere dinosaurer – det kunne også betyde, at der var mere mudder,« som hun siger.

Det er også svært at korrigere for forskydninger af ords betydning og synonymer. Ordet ‘gay’ har tydeligvis ændret betydning i løbet af de sidste 50 år, og for at afgøre i hvilken forstand, ordet bliver brugt, må man lave mange krumspring.

Sammenligner man populariteten af ordene Buddha og Jesus Christ, finder man også overraskelser. Mens den kristne helgen falder i popularitet hen over mere end 150 år, bliver Buddha stadig mere populær og topper i 1970’erne. Fra 1990 skifter tendensen, og Jesus Christ tager igen føringen. Problemet er, at det ikke er sikkert, at det skyldes en ny kristen vækkelse i samfundet. Det kan være, at det er fordi man begynder at bruge navnet som skældsord – eller som udråb. Man skal derfor nok alligevel ned i teksterne og nærlæse dem for at afgøre sagen.

0 comments: