Det hemmelige hyperlinkdiplomati

Lad mig se dine hyperlinks, og jeg skal fortælle dig, hvem du er


Af Robin Engelhardt

Hvordan vil fremtidens søgemaskiner se ud? De vil i hvert fald gøre mere, end bare at spytte et utal af dokumenter ud, som man så selv skal rode rundt i for at finde den rette information. De vil hjælpe brugeren med at formulere en søgning ved at forudse brugerens ønsker, de vil opspore data fra mange kilder og derefter sammensætte dem i et enkelt og forståeligt format, men de vil især basere sig på den struktur, hvormed dokumenter og dermed mennesker krydsrefererer til hinanden på.

Hyperlinksene, som er den metode man bruger til at klikke frem og tilbage på Internettet på, er faktisk en vigtig men stadig relativ skjult reserve til at få informationer - ikke kun ud af dokumenter - men også ud af Internettets brugere. Standard-søgemaskiner som AltaVista, HotBot, Excite, Infoseek, Lycos og FAST Search bruger de gode gamle »heuristiske« sorteringsrutiner til at rangordne alle dokumenter, der måtte indeholde et bestemt søgeord.

Hvordan virker de?
Problemet i dag er bare, at der findes alt for mange websider, som indeholder det søgte ord, og det er mere eller mindre umuligt at finde de mest relevante sider. Derfor går de nye søgemaskiner over til at analysere tekstmændgen ud fra bestemte kvalitetskriterier. Den rudimentære idé bag dette fundamentale princip for alle søgemaskiner, er den såkaldte »relevance ranking«, som går ud på følgende: Enhver tekst indeholder jo mønstre, for hvis den ikke gjorde det, ville teksten være tilfældig støj og ikke information.

Mønstrene kan beskrives matematisk, således at computeren kan finde mønstrene og udføre diverse statistiske og matematiske operationer på dem. Én af operationerne kunne for eksempel være den simple optælling af, hvor mange gange et søgeord findes i teksten. Jo oftere ordet eller ordene er nævnt i forhold til den samlede tekstmængde, jo mere relevant antages dokumentet at være for brugeren.

Mange hjemmesider udnytter denne teknik ved at skrive lange lister af ord måske endda med usynlig skrift på websiden. På den måde kommer disse hjemmesider højere op i hierarkiet af søgemaskinernes resultatliste, og får derfor flere besøg. Andre rangordningsprincipper kunne for eksempel være, hvorvidt det søgte ord findes i overskriften, i indledningen, i abstractet eller i stikordssamlingen. Jo højere op, jo mere relevant, kunne være et af kriterierne.

Uoverskuelighed
Man kunne også lede efter klaser eller klynger af de søgte ord, hvilket typisk giver en endnu bedre rangorden for de fundne dokumenter. Søgemaskiner kunne også trunkere ordene, dvs. forkorte eller forlænge dem i deres forskellige tider og kasa. Leder man efter »ridning«, kan søgemaskine for eksempel inkludere tekster, der indeholder ordene »ride«, »rider«, »rideskole«, »ridehest« og »hestevædeløb«. Denne fremgangsmåde kan være fornuftig, hvis man er meget bred i sin søgning, og endnu ikke rigtig ved, hvad man leder efter. Men det kan også være et problem, fordi en medtagelse af alle synonymer (»automobil« for »bil«, »surfe« og »lede« for »browse«, etc.) kan resultere i en uoverskuelig flertydighed.

Denne flertydighed, også kaldt polysemi, bliver dog overvældende ved ord som for eksempel »Jaguar«, hvor resultatet er tusinder af sider om bilen, tusinder om vildkatten i junglen og atter tusinde om football-holdet fra National Football League i USA, plus en masse andet junk. Det gælder derfor om at finde en passende afvejning af de forskellige rating-metoder, som desuden skal imødekomme brugerens mangeartede krav til en søgning.

Alle de teknikker, der her er blevet beskrevet er selvfølgelig allerede brugt. Søgemaskiner som Lycos, HotBot, Alta Vista, Infoseek, FAST Search, Northern Light og Direct Hit bruger dem som automatisk udgangspunkt for en søgning og opnår ganske gode resultater med dem.

En skjult reserve
Blandt de mere spændende tiltag indenfor udviklingen af nye søgemaskiner, er det såkaldte Clever projekt, som udnytter et af Nettets mest værdifulde ressourcer: De myriader af hyperlinks, som forbinder websiderne med hinanden. Ved at analysere forbindelserne mellem websiderne kan systemet automatisk lokalisere primært to typer af websider: Autoriteter og hubs. Autoriteter anses som de bedste kilder af information om et bestemt emne, og hubsene er de bedste samlinger af links til sådanne autoriteter.

Søgemaskinen Google har faktisk allerede anvendt det skema i en mindre målestok. Sergey Brin og Lawrence Page fra Stanford University, som står bag udviklingen af Google, har implementeret et ratingsystem, der går ud fra antallet af links, som peger til et bestemt dokument. Jo flere mennesker, der besøger en side, jo mere populær er den, og jo højere kommer den op i hierarkiet på resultatlisten. I praksis summerer Google blot scoren på de andre lokationer, der peger på dokumentet. På den måde kan Google altid svare hurtigt, fordi den blot lister siderne op efter deres præordinerede rating.

En anerkendelse...
Clever-projektet er en videreførelse af den idé. Ud over popularitetsrating kigger man her tilbage på de pegende dokumenter og udnytter dermed den sociologiske effekt, der opstår som resultat af, at mennesker fra naturen af er motiveret til at danne relationer altså hubs. En underliggende antagelse for den metode er selvfølgelig, at et link er en implicit anerkendelse af dokumentet, det peger til. I mange tilfælde er det fuldstændig forkert, fordi en link enten blot kan være et neutralt udsagn (»klik her for at komme tilbage til hovedmenuen«) eller en speciel fremhævelse af et latterligt eller dårligt dokument (»prøv se, hvad den idiot skriver«).

Men fordi Nettet har vokset sig så stort, har det vist sig, at det statistiske gennemsnit passer meget godt til den antagelse. I et nyt studie fra fagbladet Public Understand. Sci., skrevet af Richard Rogers og Noortje Marres har det desuden vist sig, at alle interessegrupper på Nettet om det er statslige organisationer, interesseorganisationer, firmaer eller enkeltindivider - alle organiserer deres hyperlinks i forhold til hinandes positioner.

... og et tegn på despekt

I deres analyse af klima-debatten vist de for eksempel, at man kan opdele aktørerne i tre klasser: ».gov«-klassen som er de (mellem)statsligt accepterede videnskabelige undersøgelser og resultater. http://».org« , som er NGO ere og andre interessegrupper, samt http://».com« som er de olie-, bil-, osv. producerende firmaer. Deres indbyrdes måde at hyperlinke på, afslører, hvordan deres holdninger er, hvem de positionerer sig i forhold til, og hvem de udelukker fra det gode selskab.

For eksempel er .gov-siderne ganske selvtilstrækkelige og refererer stort set kun til hinanden. http://».org«-siderne er meget omfangsrige og selektivt liberale, mens .com-siderne slet ikke er selvreferentielle (dvs. de omtaler ikke hinanden, fordi de er konkurrenter), og endnu mere selektive end .org. Manglende links er altså et tegn for manglende anerkendelse. Hyperlinks er ikke kun neutrale springbræt til anden information på Nettet, men derimod interessestyrede midler til at indlemme eller udelukke bestemte debattører. I øvrigt har denne viden en stor betydning for firmaer eller organisationer, der vil komme ind i »det gode selskab« af en bestemt debat eller et bestemt emneområde. Hyperlinkdiplomati er en kunst, der skal læres.

0 comments:

There was an error in this gadget