Internet

Google søger nye veje

Søgetjenesten Google søger nye veje og har netop lanceret en service, der er lavet specielt for web-designere og programmører. Googles teknologiske chef, Craig Silverstein, taler her om søgetjenestens fremtid.

Efter at undersøgelser har vist, at Google er den mest populære søgetjeneste på nettet, vil firmaet i Mountain View i Californien nu søge nye veje. Man har netop udviklet en ny service, som foreløbig kun findes i beta, der er specielt beregnet for web-programmører.

Den nye tjeneste, der kaldes for Google Web APIs (Application Programming Interfaces) giver programmører og web-designere mulighed for at inkorporere Googles søgemuligheder i deres egne programmer.

Beta-udgaven giver dokumentation og eksempler på kode rettet mod både Suns Java og Microsofts .Net. Men selvom Google Web APIs hovedsaglig er tænkt for de nævnte programmeringssprog _ samt Perl _ så er det allerede lykkedes programmører at anvende den nye søge-mulighed i op til 15 forskellige programmer _ herunder Apples AppleScript.

Gratis eksperimenter
Ved at gøre det muligt for Web-programmører at eksperimentere med den nye service helt gratis, ønsker Google at få afprøvet den nye idé, samtidig med at de fortsat står på god fod med det professionelle programmeringsmiljø.

Google Web APIs tilbyder den professionelle programmør tre forskellige services. Den giver adgang til Googles søgetjeneste, til de millioner af konstant opdaterede web-sider, der findes i Googles database _ og endelig tilbydes verdens programmører at integrere Googles stavekontrol i deres egne applikationer.

Specielt software med yderligere informationer kan nedtages fra Googles web-side (http://www.google.com/apis/).

Om baggrunden for den nye service fortæller Craig Silverstein, der er teknologisk chef hos Google:

- Vi har længe været klar over, at der eksisterede et behov hos programmører og web-designere for at integrere Googles søgetjeneste i deres egne applikationer. Og dette behov ville vi imødekomme på en rimelig måde. Ved at anvende SOAP (Simple Object Access Protocol) og XML fandt vi ud af, at det rent faktisk var muligt at stille denne service til rådighed for det professionelle programmeringsmiljø. Og denne mulighed findes nu i en beta-udgave. Den er endnu ikke perfekt, men det vil den blive med tiden.

- Og hvad får Google ud af det her?

- Flere forskellige ting. For det første har der altid været programmører, som har forsøgt at skaffe sig adgang til disse søgefunktioner. Men de blevet implementeret på en måde, der var dyr for os _ og resultatet var fuld af fejl for brugerne. Man fik alle søgeresultaterne fra Google, hvorefter man selv måtte udtrække de informationer, som man havde brug for. Mange gange så det ud som om, man var ude på at spamme Google. Derfor brugte vi tid på at finde de professionelle brugere og forsøge at holde dem ude. Det var de utilfredse med, og det skabte alle mulige problemer. Den nye, mere professionelle metode har skaffet os af med nogle af disse problemer.

Den anden fordel for os er, at vi ved at tillade programmører at integrere Google i deres egne applikationer, skaber et miljø, hvor professionelle programmører er involveret aktivt i Google.

Endelig ønsker vi, at brugerne skal have let ved at få de bedste resultater fra søgninger på internettet _ det er jo vores mission her i livet.

- Har den nye web APIs service noget at gøre med de automatiserede web-services, som alle for tiden taler om som „the next big thing"?

- I høj grad. Det er naturligt at betragte Googles nye web APIs som en web-service i sig selv. Og hvis brugerne ønsker at anvende Google som en web-service, så er det fint med os. Vores mål er, som nævnt, at gøre søgning så simpel og nem som muligt.

Bekæmpe snyd
Ikke alle er dog lige velkomne til bruge den nye Google Web APIs service. Det er en betingelse, at programmører ikke anvender Googles søgetjeneste til at opbygge en konkurrerende virksomhed, ligesom der er en maksimum grænse på 1000 søgninger om dagen.

- Det er blandt andet, fordi vi ikke vil gøre det lettere for spammers at ramme os, siger Craig Silverstein. Visse ejere af bestemte web-sider forsøger automatisk at søge på deres egen side hele dagen igennem for at forbedre deres rank-resultat. Det har vi ikke nogen intention om at gøre lettere.

- Er brugernes forsøg på at spamme eller snyde Google et stort problem?

- Det er et stort problem for alle søgetjenester. Og jeg har aldrig forstået, hvorfor folk vil bruge tid på at spamme os. De skulle hellere lave nogle bedre sites med læseværdigt indhold. Det er dét, der skal give dem et bedre rank-resultat.

- Du har engang udtalt, at det vigtigste for at opnå et godt resultat hos Google er, at man opbygger eller bliver en del af et miljø på nettet. Hvad mener du med det?

- Ja, man behøver ikke engang at skabe et nyt miljø. Ofte findes sådanne miljøer allerede. Det gælder om at tilslutte sig miljøer, der har samme interesse som en selv. Recepten er, at gøre folk interesserede i de emner, man beskæftiger sig med og ens site.

- Skyldes det den måde Google arbejder på? Jo flere links, der peger mod ens hjemmeside, desto bedre resultat opnår man?

- Det er én faktor. Og det er måske nok den ene faktor, der adskiller os fra andre søgetjenester. Og i hvert fald den, som pressen har beskæftiget sig mest med. Google arbejder ud fra et koncept, hvor vi ikke alene analyserer indholdet af en hjemmeside, men også hvilke links, der peger på den. Men vi lægger også vægt på andre kriterier. Vi analyserer eksempelvis nøje det „HTML mark-ups", som et site anvender. Det er ligeledes et koncept, der adskiller os fra andre _ i hvert fald den gang, vi introducerede det. Vi opdagede hurtigt, at det havde en stor betydning, hvorvidt bestemte udtryk eller søgeord fandtes i overskriften eller stod med fed eller i kursiv.

- Og alt dette går ind i Googles PageRank system med forskellig vægt?

- Ja, alt indgår i et stort miks, hvor en nøje analyse af indholdet og de pågældende links giver rækkefølgen af de hjemmesider, vi tror er mest relevant for det søgte ord eller emne.

Det usynlige web
- Mange taler om det usynlige web. Hvad gør Google for at lave et indeks over det?

- Ja, der er mange, som taler om „det usynlige web", men der er ikke rigtig nogen bred enighed om, hvad begrebet dækker. Men det er da rigtigt, at der er en masse sider på nettet, som ikke er baseret på HTML - men findes som f.eks. PDF, PostScript eller word-dokumenter. Men man kan forholdsvis nemt komme frem til disse sider ved at anvende web-spiders, og
Google finder da også disse sider og gør dem tilgængelige via vores søgetjeneste. Alle de tre formater, som jeg nævnte, finder Google i dag. De er ikke længere usynlige - i hvert fald ikke for Google.

Men der er stadig en masse data, som ikke er tilgængelige for en søgetjenestes spiders, selvom de er skrevet i HTML. Det kan skyldes flere ting. De kan eksempelvis være beskyttede mod passwords. Spiders kan ikke gætte sig til diverse passwords for at komme ind på en bestemt side. En anden barriere er, at bestemte data kan være gemt bagved et eller andet skema, som man skal udfylde: „Indtast den type bil, som du er interesseret i" for eksempel. Søgetjenester er gode til at analysere links, men ikke til at udfylde skemaer.

- Søgetjenester ved med andre ord ikke hvilken type bil, de kan lide?

- Nemlig. Så på den måde er der en masse oplysninger, som er gemt i diverse data-baser, som vi ikke umiddelbar har adgang til. Mennesker kan komme i kontakt med disse sider, men søgetjenester kan ikke. De kan ikke udfylde skemaer.

- Betyder det, at I har opgivet at lave et indeks over disse sider?

- Nej, det gør det bestemt ikke. Vi er meget interesseret i at få kontakt med disse data. Vi arbejder for tiden med at finde et teknologisk svar på søgetjenesternes manglende evne til at udfylde skemaer.

Men der findes også en række ikke-teknologiske problemer for søgetjenester. Web-tjenester, der anvender passwords, gør det jo fordi, de har brugt lang tid på at opbygge en eller anden database om et bestemt emne. Det ønsker de ikke bare at forære væk til en tilfældig søgetjeneste, der konstant leder efter data. Her må man finde en eller anden form for kompromis, der både tilfredsstiller de mennesker, der har indsamlet den pågældende viden, og de mennesker, der gerne vil i kontakt med disse data - altså befolkningen i almindelighed.

- Er det et problem for jeres nye nyheds-søgetjeneste? Altså, at man ikke kan komme ind i alle avisers arkiver, fordi de er beskyttet af en eller anden form for password?

- Det kan være et problem. Men de fleste aviser stiller efterhånden deres daglige udgave frit til rådighed via www. Og vores nye nyhedstjeneste beskæftiger sig kun med aktuelle nyheder - og går således ikke 7 eller 30 dage tilbage. Googles nyhedstjeneste bliver opdateret hver time - eller mere, så på den måde er det ikke et problem.

Flere sprog
- Et af de områder, hvor Google adskiller sig fra andre søgetjenester, er de mange sprog. Google taler også dansk. Hvorfor ikke bare have en søgetjeneste, der taler engelsk?

- Vi har lige fra begyndelsen tænkt på internettet som et internationalt fænomen og ikke blot som noget, der skulle eksistere for den engelsktalende del af verden. Vores mål er at gøre det så let som muligt at finde de informationer, man søger. Også for dem som ikke taler og forstår engelsk. Og vores indstilling har givet resultat. Mere en halvdelen af de forespørgsler, vi behandler, kommer i dag uden for USA. Og det er vi yderst stolte af, for vi mener, at hvis vi kun kunne finde hjemmesider på engelsk - så ville vi have spillet fallit. Det er vores mål at gøre alle informationer på nettet universelt tilgængelige. Og ikke alene tillader vi brugerne at lede efter f.eks. danske applikationer eller websites, vi har også oversættelses-features, som oversætter sprog, du ikke forstår. På den måde kan du i princippet finde informationer på alle sprog. Vi arbejder hårdt på at inddrage så mange sprog, som muligt.

— Hvordan ligger det med brugen af „natural language understanding"? Altså muligheden for at finde et konkret svar på et præcist formuleret spørgsmål?

- Natural language understanding er helt sikkert fremtiden for søgetjenester. Om 200 eller 300 år vil det være standarden. Til den tid vil vi have computere, der forstår det talte sprog ligeså godt som mennesker. Men computere er ikke i nærheden af at kunne det i dag _ ikke engang i de mest cutting edge forskningslaboratorier. Så opgaven for en søgetjeneste er: Hvordan får vi computere til at være ligeså kloge som mennesker. Uden at de er det. Vores analyse af kvaliteten af de links, der peger mod en bestemt hjemmeside er et eksempel på dette. Links er lavet af mennesker, og computeren anvender denne menneskeskabte information til at lave et fornuftigt og logisk PageLink system. Det anvender så at sige menneskets sunde fornuft og opretter links, hvor det er naturligt og betimeligt. På den måde virker computeren klogere, end den faktisk er.

En anden måde er at få computere til at forstå dele af natural language, selvom de rent faktisk ikke gør det. Vi arbejder _ ligesom jeg tror alle andre søgetjenester gør det _ med at finde et teknologisk svar på dette problem, men er ikke langt nok i denne proces til at udvikle et egentligt produkt.

- Så det varer nogle år, inden søgetjenester rent faktisk kan svare på et konkret spørgsmål?

Ja. Men jeg vil hævde, at Google faktisk i dag gør det bedre end andre søgetjeneste, når det kommer til at forstå natural language-spørgsmål. Men vi gør det ikke ved at foregive at anvende en eller anden over-
smart, fancy form for kunstig intelligens. I stedet anvender vi en ret simpel teknik, der i en vis udstrækning er i stand til at forstå de spørgsmål, som folk stiller Google.

- Men brugerne skal forsat selv åbne en web-page for at finde svaret på det spørgsmål, som de har stillet?

- Det er rigtigt. Vi foregiver ikke at have en slags spørgsmål/svar tjeneste. Vi lister en række web-sider, som muligvis indeholder svaret på spørgsmålet. Men vi viser jo desuden en lille bid af hver hjemmeside, og ofte vil svaret findes her. I så fald behøver brugeren ikke at åbne den pågældende hjemmeside.

Desuden har vi lige oprettet en ny tjeneste. På Answers.google.com findes en svar/spørgsmål service. Men den er befolket af rigtige levende mennesker. Så hvis man ikke kan finde svaret selv _ kan man få en menneskelig researcher til at gøre arbejdet for sig. Det er en omkostningsbestemt service _ jo mere folk er villige til at betale _ jo mere tid vil researcherne anvende på det givne spørgsmål.

- Du er kendt som en fan af Star Trek-filmene og har også givet udtryk for, at du gerne så en eller anden form for kunstig intelligens anvendt i fremtidens søgetjenester?

- Det er rigtigt. Men jeg tror ikke teknologien vil være til stede indenfor den nærmeste fremtid.

Det simple interface
- Google har altid støttet open source-bevægelsen. Har det været en succes?

- Det har det. Det software, vi anvender, er open source. Og vi anvender et hav af ganske almindelige computere i stedet for tre eller fire supercomputere. Alle de computere, vi anvender, kan købes i enhver elektronikforretning og de har alle installeret et open source-operativsystem. En del af de erfaringer, vi har gjort, har vi ladet gå tilbage til open source-bevægelsen. Så på den måde har det været en succes for os at satse på open source-software.

- Tror du, at den simple brugergrænseflade, som kendetegner Google, vil kunne bevares i en stadig skrappere konkurrence om at tjene penge?

- Ja, jeg tror, at vi kan beholde den simple brugergrænseflade _ og stadig tjene penge. Vi anvender kun tekst-annoncer, netop fordi vi ikke ønsker at forurene vores hjemmeside med al mulig grafik. Det svæ
reste for os bliver uden tvivl at integrere alle de nye servicer, uden at det går ud over det simple interface. Vi vil undgå at gøre det hele unødigt kompliceret. Det er en topprioritet for os.

- Og et princip, der delvis er udviklet af Jakob Nielsen, ikke?

- Det er det. Hans web-design filosofi er i høj grad blevet vores. Desuden sidder han jo i vores tekniske rådgivningsgruppe.

- Der skyder for tiden mange nye søgetjenester frem. Alle taler for tiden eksempelvis om „Teoma" (http://www.teoma.com/), som den nye trussel for Google. Tror du, at I på lang sigt vil kunne bevare jeres førerposition?

- Vores mission er at gøre søgninger på internettet så simple som overhovedet muligt. Og jo flere firmaer, der beskæftiger sig med denne problematik - desto bedre. Så alle, der kan bidrage til at gøre søgning på nettet bedre, er meget velkomne.