Søg og du skal finde

Forskningen i søgemaskiner vil i fremtiden bevæge sig i mange retninger. Databaser, hyperlinks og tekstanalyse vil en dag skabe et system, som kan svare rigtigt på selv de mest komplicerede forespørgsler


Af Robin Engelhardt

I disse dage vokser Internettet med voldsom hast. Antallet af websider, der er forbundet med hyperlinks, antages at være på mellem to og tre milliarder - med en beregnet fordobling i løbet af næste år. Hvis man også medregner de dynamiske genererede websider og det endnu hurtigere voksende antal databaser, som er tilsluttet Internettet, kommer antallet af dokumenter op på en svimlende sum af 600 milliarder  igen med en forventet fordobling i begyndelsen af det næste år. Konsekvensen af den eksploderende vækst er, at selv de største og mest kraftfulde søgemaskiner ikke kan følge med. For at kunne udnytte Internettet optimalt er der således opstået et stigende behov for bedre redskaber til at finde rundt i denne gigantiske høstak, om det så er på bekostning af en mere hierarkisk strukturering af nettet.

Men man skal huske på, at det ikke er Nettet som sådan, der kan eller skal struktureres. Information vil være fri, og Internettets anarkistiske og autonome opbygning kan der ikke ændres ved, uden at det vil resultere i ufrihed eller kaos. I stedet vil fremtiden være præget af en automatiseret, intelligent og måske privat software, som vil være i stand til at optimere opsporingen af præcis den information, man har brug for. For at illustrere problemet vil man forlange, at fremtidens søgemaskiner skal kunne svare hurtigt og tilfredsstillende på de følgende to spørgsmål: »Hvor mange køkkenredskaber vil Belgien producere i de næste fem år?« og »Hvilke bakterier er blevet resistente over for medicin?« Alle nødvendige informationer til at svare er på Nettet, de skal bare kunne manipuleres på en sådan måde, at vi kan få et entydigt svar. Men hvad er det mere præcis for nogle redskaber, og hvornår vil de komme? Svarene er ikke engang kendt af de største eksperter på området. Afløseren for HTML, kaldet XML (eXtensive Markup Language), vil sandsynligvis ændre meget i fremtiden, men ellers er det meget svært at sige noget konkret, især fordi udviklingen går stadig hurtigere og fordi intelligent informationssøgning lige nu er den største flaskehals inden for Internettets udvikling.

Som første krav til at forstå problemets omfang, må man være klar over følgende: Perfekt og fyldestgørende opsporing af al slags information vil man aldrig kunne opnå. Det ligger allerede i sagens natur. Informationer uploades dagligt, er ofte adgangsbegrænsede og er gengivet i utallige formater og sprog. Det andet og endnu større problem er i dag, at systemerne hverken hjælper brugeren til at starte en søgning på den rigtige måde eller hjælper ham eller hende med at forstå og analysere de data, der umotiveret popper op som resultat. Brugeren vil have svar, ikke dokumenter. Og derfor må et fremtidens søgesystem ikke kun hjælpe brugeren med at formulere en søgning, men også forudse brugerens ønsker, opspore data fra mange kilder og derefter sammensætte dem i et enkelt og forståeligt format.

Søgemaskiner er faktisk blevet meget bedre på visse områder. Især har man lært at udnytte den skjulte information, der ligger i den måde, dokumenter linker til hinanden på via de såkaldte hyperlinks. Det kan man for eksempel møde på Google, hvor man giver hvert hit en rating alt efter hvor populær websiden er, hvilket igen er en funktion af antallet af hyperlinks til siden. På trods af de mange sofistikerede værtøjer, søgemaskinerne bruger i dag, kan man ikke komme uden om, at der bliver nødt til at være en øget fokus på de semantiske redskaber til tekstanalyse, og her er de såkaldte Natural Language Processing-metoder (NLP) lovende redskaber. NLP udnytter ikke kun informationer om de ord og sætninger, der søges på, men fokuserer også mere bredt på deres mening og kontekst for på den måde at fjerne flertydigheder og misforståelser i søgningerne.

Et intelligent NLP-system skal som forudsætning kunne forstå at »Hilary Clinton« er det samme som »first lady« (i hvert fald frem til januar 2001). Det skal ifølge Susan Feldman fra fagbladet Datasearch også kunne forstå, at en bestemt forskningsgren  som for eskempel »information retrieval« inden for IT, efterhånden er blevet udvidet med næsten-synonymer som »datamining« og »knowledge management«.

Generelt kan man sige, at jo flere værktøjer man kan anvende til at fange informationen, jo bedre chance er der for at finde den. Princippet er det samme som når man øger opløsningen på et digitalt billede: Jo flere pixels, jo højere kvalitet og jo større skarphed. Et fremtidens NLP-system ville som sagt kunne finde de rette informationer til de to indledende spørgsmål. Det kan for eksempel være nødvendigt for Hollands erhvervsminister, der skal til møde om en halv time med repræsentanter for sit lands køkkenindustri, at kende svaret til det første spørgsmål hurtigt. I dag ville man skulle afsætte et hold på fem personer til at undersøge sagen i en uge, og de vil sikkert ikke bruge Nettet som deres primære kilde. Men informationerne er tilstede på Nettet. Man skal blot vide, hvor de relevante dokumenter findes, og hvordan de skal trækkes ud af computeren.

Fremtidens NLP-systemer ville ideelt set kunne magte opgaven inden for fem sekunder. Kravene er for det første en syntaktisk og semantisk forståelse af relationerne mellem ordene »Belgien«, »køkkenredskaber«, »producere« og »de næste fem år«. Dernæst kræves der en kontekstforståelse, som fortæller NLP-systemet, at det ikke skal lede efter bruttonationalproduktet de sidste fem år, og heller ikke efter et eksakt tal, men et fremtidigt estimat, baseret på de bedst mulige skøn. Nogle af de mange lovende NLP-baserede teknologier er følgende:

* Konceptforståelse (Concept mapping): Da sproget giver rig mulighed for at udtrykke en bestemt idé på mange måder (synonymer, metaforer, analogier, etc.) må computeren også kunne anvende disse teknikker til at forstå en sætning. Dvs. den skal kunne opbygge et kontrolleret vokabularium fra mange faggrene og sprog, og skal derfor kunne krydsreferere mellem mange ordbøger, citatlister, tesauruser, ordsprogssamlinger, etc.

* Automatisk indeksering: (Machine-aided Automatic Indexing, MAI) er en teknik, som allerede bruges i visse sammenhænge, og som med tiden vil erstatte en del af bibliotekarernes manuelle indekseringarbejde. Prototyper af søgemaskiner som Autonomy, Semio og Muscat forsøger sig med diverse metoder. For eksempel bruger DR-LINK, som er udviklet af Elizabeth Liddy fra Syracuse University, en automatiseret metode til at knytte emnekoder til hvert enkelt ord. MAI-systemer vil kunne automatisere store dele af database-opbygningen.

* Automatisk opsummering: Hvis man søger på Northern Light eller på Google vil der under hittene være en afskrift af teksten rundt omkring det søgte ord. Dette er en speciel form for automatisk summering, nemlig en trunkeret gengivelse af den originale tekst. I fremtiden vil man kunne få summeringer, som krydsrefererer forskellige dokumenter, og det vil ikke kun være en afskrift, men en ægte opsummering af, hvad der står, ligesom abstraktet i denne artikel.

* Flere søgemaskiner arbejder allerede nu med automatisk oversættelse. I fremtiden vil man kunne kombinere concept mapping og automatisk summering til at opsummere fremmedsprogede tekster, selv om dokumentet ikke kan oversættes som helhed.

* Relationsanalyse: Hvis man kan ekstrahere bestemte personer eller ord eller enheder fra dokumenterne, vil de kunne spores på kryds og tværs af Internettet. Semantiske kategorier som 1) »er en«, 2) »fordi« kan bruges som en slags operatorer, der vil kunne finde en bestemt slags informationer om begrebet. For ordet »ozon« vil resultatet være: »Ozon er en luftart« fra den første. »Ozonlaget forsvinder fordi CFC-gasser trænger op i stratosfæren« fra den anden.

* Spørgsmål-svar systemer: Hvis man i dag vil have svar på et specifikt spøgsmål som f.eks. »Hvornår landede rumsonden Pathfinder på Mars?«, så skal man i dag enten rode rundt i et utal af dokumenter fra NASA s hjemmeside (input i søgemaskine »Mars landing«  dårlig idé!), eller man skal kunne bruge avancerede booleske operatorer i søgningen  f.eks. »+Mars +pahtfinder +landing +site +date -host:nasa.gov -host:jpl.gov«  for at indsnævre søgningen (god idé).

I fremtiden vil en søgemaskine prompte svare »Den landede den 4. juli 1997. Se her for yderligere informationer...« Andre elementer i fremtidens NLP-systemer er visualisering, opdatering, beviskombinationer, talegenkendelse osv. Som det ses, indeholder forskningen et væld af fagområder og tværvidenskabelighed. Men det er først tilsammen, at de vil udgøre en vitterlig revolutionerende generation af værktøjer til informationsmanipulation, som kan svare tilfredsstillende på næsten alle slags spørgsmål.

0 comments:

There was an error in this gadget