SØG OG DU SKAL FINDE

Forskningen i fremtidens søgemaskiner vil bevæge sig i primært tre retninger. Den ene vil være en stadig større udnyttelse af informationsmængden, som gør sig gældende i et eksplosivt voksende antal databaser. Den anden er udviklingen af stadig mere sofistikeret værktøj til at udnytte hyperlinks og deres indbyrdes relationer til hinanden. Og den tredje er et øget fokus på de semantiske redskaber til tekstanalyse og de såkaldte Natural Language Processing-metoder, NLP, som forhåbentlig en dag vil kunne svare rigtigt på selv de mest komplicerede forespørgsler.

Denne artikel vil forsøge at gennemgå problemerne, forklare hvordan søgemaskiner fungerer, og analysere nogle af de nyeste tiltag inden for den intelligente informationssøgning.

Indledning

Hvordan virker en søgemaskine?
Det dybe net
Hyperlinks som en skjult reserve
Tekstgenkendelse og kontekstanalyse
Vigtige links


Indledning
I disse dage vokser internettet som havde det galoperende elefantitis. Antallet af websider, der er forbundet med hyperlinks, antages at være på mellem to og tre milliarder - med en kalkuleret fordobling i løbet af næste år. Hvis man også medregner de dynamiske genererede websider og det endnu hurtigere voksende antal af databaser, som er tilsluttet internettet, kommer antallet af dokumenter op på en svimlende sum af 600 milliarder - igen med en forventet fordobling i begyndelsen af det næste år. Det svarer lige nu til 100 dokumenter per verdensborger, eller en bog på størrelse med biblen til hver enkel internetbruger. Væksten af informationer er større end hvad vi mennesker tilsammen kan nå at læse, endsige forstå, og den samlede mængde af data er så høj, at den kan sammenlignes med mængden af data i den menneskelige hjerne.

Konsekvensen af den eksploderende vækst er, at selv de største og mest kraftfulde søgemaskiner ikke kan følge med. For at kunne udnytte internettet optimalt er der således opstået et stigende behov for bedre redskaber til at finde rundt i denne gigantiske høstak, om det så er på bekostning af en mere hierarkisk strukturering af nettet. Men husk på: Det er ikke nettet som sådan, der kan eller skal struktureres. Information vil være fri, og internettets anarkistiske og autonome opbygning kan der ikke ændres ved uden at det vil resultere i ufrihed eller kaos. I stedet vil fremtiden være præget af en automatiseret, intelligent og måske privat software, som vil være i stand til at optimere opsporingen af præcis den information som man har brug for.

For at illustrere problemet vil jeg forlange, at fremtidens søgemaskiner skal kunne svare hurtigt og tilfredsstillende på alle følgende spørgsmål:

”Hvor mange køkkenredskaber vil Belgien producere i de næste fem år?”
”Hvilke bakterier er blevet resistente over for medicin?”
”Find bøger, som omhandler mundhygiejne i de sidste 500 år (eller spurgt på en anden måde: Er der en grund til at Mona Lisa ikke griner?)”
”Identificér mine nye konkurrenter i møbelindustrien”
“Hvad er Anders Ands yndlings-spise?”

Alle nødvendige informationer til at svare ER på nettet, de skal “bare” kunne manipuleres på en sådan måde, at vi kan få et entydige svar i en eller to sætninger. Mennesker vil nemlig ikke have henvisninger til dokumenter – de vil have svar på spørgsmål.

Hvad er det mere præcist for nogen redskaber, og hvornår vil de komme? Svarene er ikke engang kendt af de største eksperter på området. Hvis man sammenligner de søgemaskiner, der fandtes for fem år siden med dem, vi har i dag, er forskellen så stor, at ingen vil risikere igen at blive til grin ved at forudsige fremtiden. Afløseren for HTML, kaldet XML (eXtensive Markup Language), vil sandsynligvis ændre meget i fremtiden, men ellers er det meget svært at sige noget konkret, især fordi udviklingen går stadig hurtigere og fordi intelligent informationssøgning lige nu er den største flaskehals indenfor internettets udvikling. Men det er vigtigt for beslutningstagere og firmaer at følge med. Enhver virksomhed med ønske om at gøre sig gældende også i fremtides informationssamfund, ser mængden af manglende informationer og manglende opsporingsredskaber som ensbetydende med størrelsen af tabt fortjeneste.

Som første krav til at forstå problemets omfang, må man være klar over følgende: Perfekt og fyldestgørende opsporing af al slags information vil man aldrig kunne opnå. Det ligger allerede i sagens natur. Informationer uploades dagligt, er ofte adgangsbegrænsede og er gengivet i utallige formater og sprog. Det andet og endnu større problem er i dag at systemerne hverken hjælper brugeren til at starte en søgning på den rigtige måde, eller hjælper ham eller hende med at forstå og analysere de data, der umotiveret popper op som resultat. Brugeren vil som sagt have svar, ikke dokumenter. Og derfor må fremtidens søgesystem ikke kun hjælpe brugeren med at formulere en søgning, men også forudse brugerens ønsker, opspore data fra mange kilder og derefter sammensætte dem i et enkelt og forståeligt format, hvor man desuden kan blive tilbudt diverse analysemetoder til at ændre og udvinde mere specifikke informationer på den rette facon.

Hvordan virker en søgemaskine?
Standard søgemaskiner som AltaVista, HotBot, Excite, Infoseek, Lycos og FAST Search bruger de gode gamle “heuristiske” sorteringsrutiner til at rangordne alle dokumenter, der måtte indeholde et bestemt søgeord. Problemet i dag er bare, at der findes alt for mange websider, som indeholder det søgte ord, og det er mere eller mindre umuligt at finde de mest relevante sider. Derfor går de nye søgemaskiner over til at analysere tekstmændgen ud fra bestemte kvalitetskriterier.

Den rudimentære idé bag dette fundamentale princip for alle søgemaskiner, er den såkaldte ”relevance ranking”, som går ud på følgende: Enhver tekst indeholder jo mønstre, for hvis den ikke gjorde det, ville teksten være tilfældig støj - og ikke information. Mønstrene kan beskrives matematisk, således at computeren kan finde mønstrene og udføre diverse statistiske og matematiske operationer på dem. Én af operationerne kunne for eksempel være den simple optælling af, hvor mange gange et søgeord findes i teksten. Jo oftere ordet eller ordene er nævnt i forhold til den samlede tekstmængde, jo mere relevant antages dokumentet at være for brugeren. Mange hjemmesider udnytter denne teknik ved at skrive lange lister af ord - måske endda med usynlig skrift - på websiden. På den måde kommer disse hjemmesider højere op i hierarkiet af søgemaskinernes resultatliste, og får derfor flere besøg.

Andre rangordningsprincipper kunne for eksempel være, hvorvidt det søgte ord findes i overskriften, i indledningen, i abstractet eller i stikordssamlingen. Jo højere op, jo mere relevant, kunne være et af kriterierne. Man kunne også lede efter klaser eller klynger af de søgte ord, hvilket typisk giver en endnu bedre rangorden for de fundne dokumenter. Søgemaskiner kunne også trunkere ordene, dvs. forkorte eller forlænge dem i deres forskellige tider og kasa. Leder man efter ”ridning”, kan søgemaskine for eksempel inkludere tekster, der indeholder ordene ”ride”, ”rider”, ”rideskole”, ”ridehest” og ”hestevæddeløb”. Denne fremgangsmåde kan være fornuftig, hvis man er meget bred i sin søgning, og endnu ikke rigtig ved, hvad man leder efter. Men det kan også være et problem, fordi en medtagelse af alle synonymer (”automobil” for ”bil”, ”surfe” og ”lede” for ”browse”, etc) kan resultere i en uoverskuelig flertydighed. Denne flertydighed, også kaldt polysemi, bliver dog overvældende ved ord som for eksempel ”Jaguar”, hvor resultatet er tusinder af sider om bilen, tusinder om vildkatten i junglen og atter tusinde om football-holdet fra National Football League i USA, plus en masse andet junk. Det gælder derfor om at finde en passende afvejning af de forskellige rating-metoder, som desuden skal imødegå brugerens mangeartede krav til en søgning.

Alle de teknikker, der her er blevet beskrevet er selvfølgelig allerede brugt. Søgemaskiner som Lycos, HotBot, Alta Vista, Infoseek, FAST Search, Northern Light og Direct Hit bruger dem som automatisk udgangspunkt for en søgning, og opnår ganske gode resultater med dem.

Det dybe net
Ifølge et estimat fra det amerikanske internetfirma Cyveillance medio juli kommer der over syv millioner nye websider på nettet hver dag, og globalt set er internettet nu oppe på i alt 2,1 milliarder individuelle http-sider (URL’er).

Men det tal er alt for lavt, viser en analyse fra ultimo juli i år, som blev foretaget af den amerikanske virksomhed BrightPlanet. Hvis man til dagligt bruger standard søgemaskiner som Yahoo! og Google til at finde rundt i verdensvævet, surfer man kun i overfladen af internettet. Nye såkaldte dybe søgemaskiner, der kan gnave sig ned i den voksende mængde information, som ligger i offentlige institutioners, universiteters og virksomheders databaser tyder på, at der i alt ligger 550 milliarder sider på nettet. Og altså cirka 90 websider for hver mand, kvinde og barn her på jorden.

Internettet har dermed nået en størrelse hinsides, hvad der kan fattes. Det muterer og vokser med en vildskab, som kun få havde regnet med. Nye sider sendes ud på nettet hurtigere end det er muligt at nå at læse dem. Og hvad mere er: Det dybe net har en langt bedre kvalitet og relevans, end hvad de gængse søgemaskiner typisk kan finde frem til ved en almindelig søgning. Det skyldes den omstændighed, at mange websider, portaler og virksomheder arbejder med interne databaser, som ikke er tilstede på internettet som statiske http-adresser (URL’er), men som dynamiske sider, der kun fremvises ved en direkte søgning på specielle baser. De almindelige søgemaskiner, som for eksempel Altavista, FASTSearch og Northern Light, bruger crawlere eller spidere til at katalogisere internettet ved at springe fra én hyperlink til den næste. Men de går aldrig dybere ned i de lokale og ofte højt specifikke databaser, og derfor mangler der ofte den mest relevante information om et givent emne.

Mængden af information i disse dybe databaselag er estimeret til at fylde omkring 7.500 terabyte (dvs. 240 bytes, eller cirka 1,1 trillion bytes) sammenlignet med blot 19 terabyte fra det statiske overflade-net. Og her er ikke engang medregnet de talrige andre internetprotokoller som FTP, Gopher, news, telnet og email, som også indeholder en stor mængde informationer.

Hvis man regner på, hvor meget den største søgemaskine i dag (som er Google) dækker, kommer man ned på blot et par promille af det samlede antal af websider. Men faktisk er omkring 95 procent af alle databaserne frit tilgængelige for brugeren, bare ikke ved hjælp af søgemaskiner som Google eller andre. Man skal i stedet opsøge selve hjemmesiden – og først dér lave sin database-søgning.

For fremtidens intelligente søgemaskiner gælder det derfor om at anvende bedre fiske-teknikker, som er i stand til at lave intelligente forespørgsler på alle mulige og umulige databaser. Desuden har mange videnskabelige databaser stadig enorme lagre af tekster, men de arbejder primært med FTP. Siden 1996 har database-teknologier som Bluestones Sapphire/Web og Oracle flyttet de mere seriøse informationer væk fra de statiske http-adresser. Det blev også pludselig muligt for webservere at tillade dynamiske repræsentationer af websiderne ved hjælp af Microsofts ASP (Active Server Pages) og UNIX’s PHP teknologier (som begge er nogle scripts til at fortolke og fremvise dynamiske genererede html-sider - alt efter hvilken søgning, der foretages). Siden disse teknikkers fremkomst har de største vækstrater været centreret omkring databaser og deres design. Alene de 60 største »dybe« internetdatabaser, hvor man blandt andre også finder NASA EOSDIS, mp3.com, amazon.com og NIH PubMed, fylder mere end 40 gange så meget som hele det kendte overflade-net.

Ifølge internetfirmaet BrightPlanet er deres nyudviklede søgerutine LexiBot i stand til også at lave parallelle databasesøgninger. I en test-søgning på det specifikke udtryk »percolating network« (som betyder gennemstrømmende netværk) fandt jeg kun 57 hits på Google, mens jeg fandt 1.558 hits på Lexibot. I søgningen kunne man selv bestemme, hvilke og hvor mange videnskabelige og andre databaser, man ville medtage i søgningen. I en efterbehandling af søgeresultaterne var der dog stadig en del mangler at spore. Men retningen er den rigtige. Det antages, at der i dag findes cirka 100.000 dybe websider, og deres vækstrate er endda større end væksten af det kendte overflade-net. Desuden er trafikken på disse dybe sider omkring 50 procent større, hvilket viser, at deres høje kvalitet og store informationsindhold er meget populær blandt brugerne.

Det mest overraskende resultat af undersøgelsen viser, at 97,4 procent af det dybe net er offentligt tilgængeligt uden restriktioner af nogen art. 1,6 procent er blandede med begrænset adgang, således at flere resultater betinges af gratis tilmelding og/eller betalt abonnement. Kun 1,1 procent er udelukkende baseret på betaling. Det er et overraskende fund, fordi mange af de meget synlige sites som eksempelvis Dialog, Lexis-Nexis og Wall Street Journal Interactive eller også det danske Polinfo er stadig abonnementsbegrænsede.

Alt i alt må man altså regne med, at vi inden for de næste par måneder og år vil se en voldsom udvidelse af søgemaskinernes kapacitet til også at omfatte de mange specialiserede og højkvalitative databaser - så vidt de vil være offentligt tilgængelige, gratis eller på licens. De såkaldte “Vortals” – altså websider som indeholder specialiseret viden - er allerede nu ved at finde vej til den brede offentlighed.

Hyperlinks som en skjult reserve
Blandt de mere spændende tiltag indenfor udviklingen af nye søgemaskiner, er det såkaldte Clever projekt, som udnytter et af nettets mest værdifulde ressourcer: De myriader af hyperlinks, som forbinder websiderne med hinanden. Ved at analysere forbindelserne mellem websiderne kan systemet automatisk lokalisere primært to typer af websider: Autoriteter og hubs. Autoriteter anses som de bedste kilder af information om et bestemt emne, og hubsene er de bedste samlinger af links til sådanne autoriteter.

Søgemaskinen Google har faktisk allerede anvendt det skema i en mindre målestok. Sergey Brin og Lawrence Page fra Stanford University, som står bag udviklingen af Google, har implementeret et ratingsystem, der går ud fra antallet af links, som peger til et bestemt dokument. Jo flere mennesker besøger en side, jo mere populær er den, og jo højere kommer den op i hierarkiet på resultatlisten. I praksis summerer Google blot scoren på de andre lokationer, der peger på dokumentet. På den måde kan Google altid svare hurtigt, fordi den blot lister siderne op efter deres præordinerede rating.

Clever projektet er en videreførelse af den idé. Ud over popularitetsrating kigger man her tilbage på de pegende dokumenter og udnytter dermed den sociologiske effekt, der opstår som resultat af, at mennesker fra naturen af er motiveret til at danne relationer – altså hubs. En underliggende antagelse for den metode er selvfølgelig, at et link er en implicit anerkendelse af dokumentet det peger til. I mange tilfælde er det fuldstændig forkert, fordi en link enten blot kan være et neutralt udsagn (“klik her for at komme tilbage til hovedmenuen”) eller en speciel fremhævelse af et latterligt eller dårligt dokument (“prøv se, hvad den idiot skriver”). Men fordi nettet er vokset sig så stort, har det vist sig, at det statistiske gennemsnit passer meget godt til den antagelse.

I et nyt studie fra fagbladet Public Understand. Sci., skrevet af Richard Rogers og Noortje Marres har det desuden vist sig, at alle interessegrupper på nettet – om det er statslige organisationer, interesseorganisationer, firmaer eller enkeltindivider - organiserer deres hyperlinks i forhold til hinandens positioner. I deres analyse af klima-debatten viste de for eksempel, at man kan opdele aktørerne i tre klasser: ».gov« - klassen som er de (mellem)statsligt accepterede videnskabelige undersøgelser og resultater. ».org« , som er NGO’ere og andre interessegrupper, samt ».com« som er de olie-, bil-, osv. producerende firmaer. Deres indbyrdes måde at hyperlinke på, afslører, hvordan deres holdninger er, hvem de positionerer sig i forhold til og hvem de udelukker fra det gode selskab. For eksempel er .gov-siderne ganske selvtilstrækkelige og refererer stort set kun til hinanden. ».org«-siderne er meget omfangsrige og selektivt liberale, mens .com-siderne slet ikke er selvreferentielle (dvs. de omtaler ikke hinanden, fordi de er konkurrenter), og endnu mere selektive end .org.

Manglende links er altså et tegn for manglende anerkendelse. Hyperlinks er ikke kun neutrale springbræt til andre information på nettet, men derimod interessestyrede midler til at indlemme eller udelukke bestemte debattører (i øvrigt har denne viden en stor betydning for firmaer eller organisationer, der vil komme ind i “det gode selskab” af en bestemt debat eller emneområde. Hyperlink-diplomati er en kunst, der skal læres).

Tekstgenkendelse og kontekstanalyse
På trods af disse mange sofistikerede værktøjer kan man ikke komme uden om, at der bliver nødt til at være en øget fokus på de semantiske redskaber til tekstanalyse. Her er de såkaldte Natural Language Processing-metoder, NLP, lovende redskaber. NLP udnytter ikke kun informationer om de ord og sætninger, der søges på, men også mere bredt fokuserer på deres ”mening” og ”kontekst” til på den måde at fjerne flertydigheder og misforståelser i søgningerne.

Et intelligent NLP-system skal som forudsætning kunne forstå at “Hillary Clinton” er det samme som “first lady” (i hvert fald frem til januar 2001). Det skal ifølge Susan Feldman fra fagbladet Datasearch også kunne forstå, at en bestemt forskningsgren – som for eskempel “information retrieval” inden for IT, efterhånden er blevet udvidet med næsten-synonymer som “datamining” og “knowledge management”. Generelt kan man sige, at desto flere værktøjer man kan anvende til at fange informationen, jo bedre chance er der for at finde den. Princippet er det samme som når man øger opløsningen på et digitalt billede: Jo flere pixels, jo højere kvalitet og jo større skarphed.

Et fremtidens NLP-system ville som sagt kunne finde de rette informationer til følgende spørgsmål: ”Hvor mange køkkenredskaber vil Belgien producere i løbet af de næste fem år?” Det er virkelig et bisset spørgsmål! Men det kan være nødvendigt at vide for Hollands erhvervsminister, der skal til møde om en halv time med repræsentanter for sit lands køkkenindustri.

I dag ville man skulle afsætte et hold på fem personer til at undersøge sagen i en uge, og de vil sikkert ikke bruge nettet som deres primære kilde. Men informationerne ER tilstede på nettet. Man skal blot vide, hvor de relevante dokumenter findes, og hvordan de skal trækkes ud af computeren. Fremtidens NLP-systemer ville ideelt set kunne magte opgaven indenfor fem sekunder. Kravene er for det første en syntaktisk og semantisk forståelse af relationerne mellem ordene ”Belgien”, ”køkkenredskaber”, ”producere” og ”de næste fem år”. Dernæst kræves der en kontekstforståelse, som fortæller NLP-systemet, at det ikke skal lede efter bruttonationalproduktet de sidste fem år, og heller ikke efter et eksakt tal, men et fremtidigt estimat, baseret på de bedst mulige skøn.

Nogle af de mange lovende NLP-baserede teknologier er følgende:
- Concept mapping: Da sproget giver rig mulighed for at udtrykke en bestemt idé på mange måder (synonymer, metaforer, analogier, etc.) må computeren også kunne anvende disse teknikker til at forstå en sætning. Dvs. den skal kunne opbygge et kontrolleret vokabularium fra mange faggrene og sprog, og skal derfor kunne krydsreferere mellem mange ordbøger, citatlister, ordsprogssamlinger, etc.
- Automatisk indeksering: Machine-aided Automatic Indexing (MAI) er en teknik som allerede bruges i visse sammenhænge, og som med tiden vil erstatte en del af bibliotekarernes manuelle indekseringarbejde. Prototyper af søgemaskiner som Autonomy, Semio og Muscat forsøger sig med diverse metoder. For eksempel bruger DR-LINK, som er udviklet af Elizabeth Liddy fra Syracuse University, en automatiseret metode til at knytte emnekoder til hvert enkelt ord. MAI-systemer vil kunne automatisere store dele af database-opbygningen.
- Automatisk opsummering: Hvis man søger på Northern Light eller på Google vil der under hits’ene være en afskrift af teksten rundt omkring det søgte ord. Dette er en speciel form for automatisk summering, nemlig en trunkeret gengivelse af den originale tekst. I fremtiden vil man kunne få summeringer, som krydsrefererer forskellige dokumenter, og det vil ikke kunne være en afskrift, men en ægte opsummering af, hvad der står, ligesom abstractet i denne artikel.
- Flere søgemaskiner arbejder allerede nu med automatisk oversættelse. I fremtiden vil man kunne kombinere Concept mapping og automatisk summering til at opsummere fremmedsprogede tekster, selvom dokumentet ikke kan oversættes som helhed.
- Relationsanalyse: Hvis man kan ekstrahere bestemte personer eller ord eller enheder fra dokumenterne, vil de kunne “spores” på kryds og tværs af internettet. Semantiske kategorier som 1) “er en”, 2) “fordi” kan bruges som en slags operatorer, der vil kunne finde en bestemt slags informationer om begrebet. Som eksempel ordet “ozon” vil resultatet være: “Ozon er en luftart” fra den første. “Ozonlaget forsvinder fordi CFC gasser trænger op i stratosfæren” fra den anden.
- Spørgsmål-svar systemer: Hvis man i dag vil have svar på et specifikt spøgsmål som f.eks. “Hvornår landede Rumsonden Pathfinder på Mars?”, så skal man i dag enten rode rundt i et utal af dokumenter fra NASA’s hjemmeside (input i søgemaskine “Mars landing” – dårlig idé!), eller man skal kunne bruge avancerede boolean operatorer i søgningen – f,eks, “+Mars +pahtfinder +landing +site +date –host:nasa.gov –host:jpl.gov” - for at indsnævre søgningen (god idé). I fremtiden vil en søgemaskine prompte svare “Den landede den 4. juli 1997. Se her for yderligere informationer...”

Andre elementer i fremtidens NLP-systemer er visualisering, opdatering, beviskombinationer, talegenkendelse osv. Som det ses, indeholder forskningen et væld af fagområder og tværvidenskabelighed. Men det er først tilsammen at de vil udgøre en vitterlig revolutionerende generation af værktøjer til informationsmanipulation, som kan svare tilfredsstillende på næsten alle slags spørgsmål.

0 comments:

There was an error in this gadget