Et web som kan forstå

15. oktober 2002 kl. 10:21 Internet

Oprettet af Peter Hesseldahl

Tim Berners-Lee, manden der opfandt World Wide Web, er i fuld gang med at udvikle det næste bud på en internetrevolution. Det semantiske web kaldes det, og ideen er at computere fremover også skal kunne forstå informationer på nettet. Så kan de selv analysere og sammenstille informationer -og dermed overtage en stor del af vores opgaver med at søge informationer, organisere kalenderen eller bestille varer.

Som et eksempel på hvordan det semantiske web kan ændre brugen af informationer, nævner Tim Berners-Lee opgaven med at lede efter en bestemt konference.

- I dag kan du søge efter den på nettet, men når du finder en konference, der er interessant, så indebærer det, at du skal skrive navnet og datoen ind i din kalender, du skal overføre programmet og deltagerlisten til et tekstbehandlingsprogram, og når du skal af sted, skal du taste adressen ind for at få et kort, der kan vise dig vej. Måske skal du også åbne dit bankprogram for at sende betalingen -og så skal du igen indtaste en masse af informationerne fra det oprindelige website. Min vision er, at når jeg klikker "ja" på sitet, så vil alle informationer automatisk blive indsat i de rigtige programmer. Men det kræver, at computeren kan forstå, at nogle oplysninger angiver en dato, andre er adresser eller kontonumre til indbetaling.

Alle data skal have etiketter
Nøgleordet er at "forstå". Semantik er læren om ord og sætningers betydning. I dag er søgemaskinerne begrænset af, at de ikke forstår, hvad der står på websiderne. De kan finde ord, der rent mekanisk matcher, men de kan ikke gennemskue, at to sider, der handler om samme emne, men som ikke lige bruger de samme ord, eller ikke er på samme sprog, kan supplere hinanden.

Det semantiske web skal gøre computerne i stand til at forstå sammenhænge, og dermed gøre det muligt at genbruge informationer i mange forbindelser for at kunne lave analyser og konklusioner.

I mangt og meget er det semantiske web en videreudvikling af XML, extended markup language, der begyndte at blive brugt i 1998. XML går ud på at forsyne nogle af informationerne på websider med "etiketter" eller "tags", der fortæller, hvilken type information, der er tale om.

I HTML, det oprindelige programmeringssprog for websider, kan man indsætte tags for at specificere, at et ord eksempelvis skal være fremhævet med kursiv eller fed.

XML udvider de muligheder, så man kan indsætte tags, der eksempelvis fortæller, at ét ord er et "navn", et andet ord er en "adresse" og et tredje ord er en "nettopris".

Det semantiske web udvider de muligheder med et langt mere omfattende sæt af etiketter, der kan beskrive data meget mere detaljeret.

Det ekstra lag af informationer, der fortæller maskinerne, hvordan data skal forstås, kaldes RDF i det semantiske web -Resource Description Framework. Uden de ekstra data ved maskinen ikke, hvad den arbejder med, og derfor er det afgørende, at vi mennesker gør os den ulejlighed at forsyne alle data med etiketter. Man kunne imidlertid forestille sig, at det ville knibe med at få alle til at forsyne deres websider med de rette etiketter -vi har travlt nok i forvejen.

Genbrug
Tim Berners-Lee mener dog, at den proces i vidt omfang kan automatiseres, ikke mindst hvis sammenhængen med computerens mange programmer er to-vejs. Hvis vi holder os til eksemplet med konferencen fra før, så vil dem, der arrangerer konferencen på et tidspunkt lægge sig fast på et tidspunkt. Måske gør de det ved hjælp af et værktøj til planlægning af møder. Når de indtaster datoen, vil programmet straks vide, at der er tale om et tidspunkt og en dato. De etiketter vil følge med oplysningerne, når de senere føres over i et program, der udformer websiderne eller sender invitationer ud. Når der først én gang er sat etiket på en information, kan den altså genbruges i utallige sammenhænge.

Når man sætter etiket på en information, forestiller Berners-Lee sig, at man vælger fra en menu, der indeholder relevante betegnelser. Selve etiketten består af en URL; en webadresse der referer til et dokument, der indeholder definitionen på etiketten. Hvis det eksempelvis er et postnummer, kan den computer, der skal læse informationen, slå op og se, at det er et postnummer. URL\'en indeholder også en lang række oplysninger, der kan være nyttige, når en computer skal anvende eller vise et postnummer.

URL\'ens dokument kan også forklare, hvordan oplysningen er knyttet til andre typer oplysninger -f.eks. at et "postnummer" er det samme, som det der på engelsk kaldes zipcode, altså noget, der skal angives på alle breve, og at nummeret har et specifikt antal cifre, alt efter hvilket land, den henviser til. URL\'en kan også henvise til en tabel, der angiver hvilken by, der svarer til et givent postnummer. Hele overbygningen af definitioner og forklaringer kaldes "ontologien" (studiet af tilværelsens inderste væsen og tingenes eksistens og egenskaber, red.).

Tim Berners-Lee forventer, at der vil opstå utallige databanker, der indeholder oversættelser af betegnelser og regler om begreber. Et simpelt eksempel kunne være en database, der oversætter fahrenheit til celsius. Det kan også være mere komplicerede oversættelser, f.eks. mellem sprog eller videnskabelige formler, eller observationer om, at en bopæl i 2920 Charlottenlund typisk følges med en høj indkomst.

Der vil opstå smarte måder at genanvende data på, som vi dårligt kan forestille os, forudser Berners-Lee, og han advarer om, at det
også kan blive en trussel mod privatlivet:

- Den måde du bor på kan omregnes til en sandsynlig pris for dit hus, og den pris kan bruges til at gætte, hvad du plejer at bruge på julegaver. Det er vigtigt, at mulighederne i det semantiske web ikke bliver brugt til at diskriminere folk, mener Berners-Lee.

Nettet trives med åbenhed
Funktionerne i det semantiske web og hele det enorme kompleks af definitioner bliver udviklet inden for W3C; The World Wide Web Consortium, som Berners-Lee er leder af.

Et af stridspunkterne i konsortiets arbejde har været at flere af de selskaber, der har deltaget i udviklingen, ønskede at patentere systemet. Men for Berners-Lee er det et grundlæggende princip at World Wide Web skal være en teknologi, der er fri og åben, for enhver, der måtte ønske at videreudvikle systemet.

Hans egne handlinger illustrerer, hvorfor den strategi er i flertallets interesse. Berners-Lee valgte i sin tid at undlade at patentere principperne bag WWW, og det har været afgørende for den hvirvlende udvikling og enorme arbejdsindsats, som enkeltpersoner og selskaber har skabt.

Efter Berners-Lee mening er industrien for tiden ved at tage hele holdningen til patenter op til fornyet overvejelse:

- De indser, at de ikke simpelthen kan bede folk om at betale licens for helt generelle ting, såsom en ny internetprotokol. Det var en væsentlig årsag til, at internetrevolutionen kunne ske, at de grundlæggende elementer, som http og html var fuldstændigt åbne. Enhver person eller ethvert selskab kunne anvende dem og videreudvikle dem, som de havde lyst, og på den måde kommer der den enorme strøm af nye ideer, fortæller Tim Berners-Lee:

- Selskaber kunne investere i udviklingen og planlægge deres fremtid i forhold til nettet, og enkeltpersoner turde satse deres karriere og ofre deres nattesøvn for at udvikle teknologien, fordi de vidste, at de ikke bare kastede det hele i lommen på nogle andre, men at det ville være til et fælles bedste.

Kan Microsoft overtage nettet?
Efter Berners-Lees mening står vi nu overfor endnu en bølge af teknologiske udviklinger:

- Det semantiske web, mobile tjenester og brugen af browsere, der kan forstå tale, vil skabe enorme nye markeder, føde nye ideer, nye produkter og nye selskaber. Nok engang skal vi gennemtænke den måde, vi gør alting på, for de nye teknologier vil åbne for en gennemgribende effektivisering. Men det vil kun ske, hvis vi kan finde den samme tilstand af uhæmmet investering af tid og kræfter i projektet fra folk og selskaber, der ved, at de ikke skal bekymre sig om, der kommer et eller andet selskab og hævder, at de ejer ideen, fordi de fik den først, siger han.

I den forbindelse er specielt Microsoft svære at overse. Selskabets strategi for nettet kan være på kollisionskurs med det semantiske web. Microsoft har i årevis rumsteret med et overordnet koncept, der undervejs har skiftet navn, fra "Hailstorm" til ".net" og "myservices", og de meldinger, der er kommet fra hovedkvarteret i Redmond, har været temmelig forskelligartede.

Kernen i Microsofts system er at organisere informationer i en lang specifikke "konti" - hvor selskaber og privatbrugere kan gemme data.

Én konto rummer kalender, en anden kontaktadresser og telefonnumre, og andre konti kan rumme e-mails, bankkonti eller dokumenter fra projekter på arbejdet. Til hver konto er specificeret, hvem der kan få adgang til oplysningerne, og hvem der kan ændre i dem, og den adgang styres ved at benytte Microsofts "Passport", der er tænkt som et slags universelt, elektronisk ID-bevis.

.net-systemet ville kunne præstere meget af det, som det semantiske web skal muliggøre, men det ville etablere Microsoft som en slags "omstillingscentral" for en stor del af alle transaktioner på nettet, og det ville ske ved hjælp af software, der i vidt omfang var patenteret og lukket for alle andre end Microsoft.

Diplomatiets ædle kunst
Tim Berners-Lee er meget omhyggelig med ikke at omtale enkelte selskaber. De 480 medlemmer af W3-konsortiet har meget forskellige filosofier og interesser. De spænder lige fra organisationer for open source og free software til gigantiske selskaber som IBM, Sun og Microsoft. Der er hårdt brug for diplomati.

- Generelt har der, siden vi startede, været frygt for, at et eller andet selskab skulle komme til at dominere ét område af nettet. Det er også sket hist og her til en vis grad, men det har altid været forskellige selskaber, og deres dominans har ikke kunnet vare ved. Spørgsmålet er, om det er muligt at skabe et univers af informationer, der er isoleret fra resten af WWW -lidt i stil med de lukkede universer, som nogle internetudbydere skabte i begyndelsen. America Online byggede eksempelvis et system, hvor man koblede sig op til en masse interessante informationer i deres univers, men det var ikke hele WWW, og derfor fungerede det ikke. Man kan ikke konkurrere med hele resten af verden, og jeg tror, at det vil være på samme måde med det semantiske web. Styrken i et hypertext link er netop, at det kan henvise til hvad som helst. Så snart noget af den adgang spærres af, så formindskes værdien af det link. Hvis du laver en søgning, og du ved, at du ikke gennemsøger alt det, der er derude, men, at du kun kan søge inden for de ting, som producenten tillader, så bliver kvaliteten af de informationer, du får, dårligere. Kvaliteten af dit liv og af dine muligheder for at drive forretninger bliver forringet, og du må indse, at du bliver styret af et selskab, der virkelig har fået krammet på dig, siger Tim Berners-Lee:

- Det er klart, at verden er på vagt overfor den type udvikling, og at alle forsøger at undgå at falde i fælden, for den takt, som nettet og vores muligheder udvikles i, afhænger af, at der er masser af forskellige selskaber og vidt forskellige ideer i spil. Det er jo netop fordi, der ikke bare er én, der har planlagt det hele, at der er den rigdom af websites og tjenester derude i dag -det er fordi millioner af
selvstændige og forskellige personer har haft friheden til at skabe deres egne løsninger. Sådan vil det også være når vi bruger data, der kan forstås af maskiner, og sådan vil det være med de nye tjenester, der kan fungere som vores agenter, når vi skal udnytte tjenester og søge informationer.

Agenter igen
Agenter, ja. Med det semantiske web er der udsigt til, at det gamle begreb får en genopblomstring. Agenter var meget omtalte i midten af halvfemserne. Ideen var, at brugere henvendte sig til deres computere ved at tale med en slags butler; et program, der kunne udføre ens ordrer ved at drage ud på nettet og søge informationer, bestille varer eller arrangere møder automatisk.

Når de ikke slog an, skyldtes det efter Tim Berners-Lees mening især mangelen på tillid:

- Agenter bygger på, at man sender små programmer rundt på nettet, som kan afvikles på andres computere. Som udgangspunkt er det generelt farligt at lade andre afvikle deres programmer på ens computere, og derfor er der et problem med at etablere tillid til agenterne, mener Berners Lee:

- En anden form for tillid handler om, at brugeren skal kunne stole på, kvaliteten af de informationer agenten henter hjem. Der er masser af ragelse derude, så hvordan skal agenten kunne vide, hvem den kan stole på. Den er nødt til at have instrukser, og forudsætningen for, at det kan fungere, er, at vi får skabt det, jeg kalder et "web of trust".

- I dag bruger man elektronisk signatur for at garantere, at et dokument er ægte og intakt, men det er en meget forsimplet form for garanti. Jeg stoler på forskellige informationer i forskellige sammenhænge. Jeg giver gerne mit kreditkort til en mand i blå kedeldragt, hvis det er på et bilværksted, men jeg vil ikke betro ham kreditkortet, hvis han beder om det på en restaurant. Sådan har vi vores små regler. Hvis en tjener i smoking fortæller mig om menuen på en restaurant, så stoler jeg på ham, men jeg har ingen grund til tro på det, hvis han giver mig råd om, hvilken hest jeg skal spille på.

Som Tim Berners-Lee ser det, så har vi hidtil ikke rigtig haft et sprog, der var i stand til at udtrykke, hvordan man kan stole på forskellige personer og dokumenter i forskellige sammenhænge. Men efter hans mening vil det semantiske web give mulighed for at opstille den form for nuancerede betingelser, og dermed bliver det muligt at bygge agenter, der kan udføre transaktioner på vores vegne.

Et andet problem med agenter har været, at agenterne dybest set ikke forstod de dokumenter, de mødte på nettet.

Som et billede på situationen fortæller Berners-Lee om en Gary Larson tegneserie, der viser en mand, som skælder sin hund ud: "Fido! Hvis du nogensinde spiser af maden igen, Fido!, så får du sådan en gang ballade, har du forstået Fido?!"

Det eneste hunden i virkeligheden hører er "Fido! Blablabla Fido! Blablabla Fido!

På samme måde er det eneste en agent forstår, når den gennemsøger et webdokument: "blablabla <href> blablabla <href> blabla <href> blabla <href>".

- Agenten ser, at der er links eller et matchende søgeord i teksten, men den har ingen anelse om, hvad det betyder. Med det semantiske web vil den faktisk kunne læse dokumentet, og den vil for eksempel kunne forstå, at det drejer sig om et møde, og at mødet finder sted, mens du holder ferie i Spanien, og derfor behøver den ikke at fortælle dig om det. Og så bliver agenter straks langt mere interessante, siger Tim Berners-Lee.

Kan det betale sig?
Alligevel kan man spekulere på, om det nu også er indsatsen værd at forsyne alle vores data med etiketter og beskrivelser af sammenhænge og betydninger -for ikke at nævne hele opbygningen af de forklaringer og tabeller med oversættelser. Det er en kæmpeopgave, og den vil i et eller andet omfang belaste alle, der arbejder med informationer i årene fremover.

Dén betænkelighed har Tim Berners-Lee hørt før:

- Det var nøjagtigt det samme, folk sagde om WWW. De syntes, at det de havde, fungerede godt nok, og de havde svært ved at se de fordele, de kunne opnå ved at oversætte til HTML. Og i begyndelsen var der vitterligt heller ikke mange gevinster. Det er sandt, at hvis man er blandt de første, der skaber sine data om ved at forsyne dem med RDF-koderne, så er det ikke meget værd. Det er først, når alle andre også har gjort det, og alt kan kobles sammen, at man får den store ekstra styrke fra nettet, siger Berners-Lee.

- Og hvornår begynder det så at spille for alvor?

- Mit gæt er, at om 4 år kan du skrive om, at nu letter det semantiske web.

Se flere nyheder

Et web som kan forstå

Analyse: Syv skæve i ny link-lov

Radio24syv-vært lukket ned af Twitter

Tech-professoren og kampen for nettets sjæl

Virksomheder narrer brugerne til mere dataovervågning

Kinas digitale mur udfordrer det frie internet

Kinas censur rækker ud i verden

Minoriteter er jaget vildt

Bitcoin-pioner: Banker og digital valuta vil leve side om side

Så slap jeg for lampe-åget

Stop de idiotiske internet-tingester

Google Fact Check som våben mod fake news

Norsk Vivaldi-browser klar til Raspberry Pi

Turbo-browser: Firefox Quantum

Servernedbrud gør haven dum

Drone-producent lapper på sikkerhed

1989: Da floppydiske med ransomware huserede

Webopfinder vil give brugerne datakontrol og privacy

Skal vi genoplive Wave?

Sådan fik Microsofts browser kant

Digitale rettigheder bygger på menneskerettigheder

Et web som kan forstå

Artikler, samme emne

Analyse: Syv skæve i ny link-lov

Radio24syv-vært lukket ned af Twitter

Tech-professoren og kampen for nettets sjæl

Virksomheder narrer brugerne til mere dataovervågning

Kinas digitale mur udfordrer det frie internet

Kinas censur rækker ud i verden

Minoriteter er jaget vildt

Bitcoin-pioner: Banker og digital valuta vil leve side om side

Så slap jeg for lampe-åget

Stop de idiotiske internet-tingester

Google Fact Check som våben mod fake news

Norsk Vivaldi-browser klar til Raspberry Pi

Turbo-browser: Firefox Quantum

Servernedbrud gør haven dum

Drone-producent lapper på sikkerhed

1989: Da floppydiske med ransomware huserede

Webopfinder vil give brugerne datakontrol og privacy

Skal vi genoplive Wave?

Sådan fik Microsofts browser kant

Digitale rettigheder bygger på menneskerettigheder

Dine oplysninger