Du læser nyheder om sport og teknologi, og bannerannoncerne finder hurtigt ud af, at du er en mand. Spotify foreslår, at du hører Rasmus Seebach, fordi din kæreste tidligere har lyttet til Thomas Helmig på din Spotify-profil. Google Now fortæller dig, hvor lang tid det tager at komme på arbejde, uden at du nogensinde har oplyst din arbejdsplads.
Fænomenet kaldes personalisering, og det er på vej til at blive langt mere effektivt.
I 2012 vurderede IBM, at 90 procent af alle data i verden var produceret i løbet af de seneste to år. Med disse Big Data kan man blive bedre til at personalisere annoncer og indhold til forbrugerne – via hjemmesider, apps, mails og push-beskeder med videre.
Interessen for feltet vokser voldsomt blandt marketingbureauer, teknologivirksomheder, medievirksomheder, e-handelsvirksomheder, underholdningsvirksomheder og mange andre.
Tag for eksempel nyhedssektoren. Jylland-Posten bedyrer, at man vil indføre personaliserede nyhedsflader på jp.dk inden for et år. Washington Posts chef for digitale nyheder, Cory Haik, blogger varmt om "adaptive news", baseret på indsamling af data fra folks kalendere, sociale medier, GPS'er og lignende. Og Berlingskes digitale redaktør, Jens Jørgen Madsen, siger om fremtidsudsigterne:
– Noget af det, man ikke kan endnu, men som er på vej, er medier, der kender din personlige DNA, og som kan forudsige dit personlige nyhedsbehov minimum 24 timer frem - ud fra dine tidligere handlinger.
Udviklingen drives af et hav af startup-foretagender og nogle af klodens mægtigste teknologivirksomheder: indholdsudbydere som Apple, Netflix, Amazon og Spotify og it-giganter som Google, Facebook, Adobe, SAS Institute, Sitecore, Salesforce og mange, mange andre.
– Der kommer til at ske rigtigt meget på det her område. Og jeg vil vurdere, at man om 20 år vil se tilbage på 2014 som begyndelsen til den her udvikling. Men det betyder ikke, at det, vi har i dag, ikke er brugbart, lyder statusopdateringen fra Rasmus Pagh, leder af Theoretical Computer Science Section på IT Universitet i København.
En jungle af data
Peter Dolog forsker i maskinintelligens på Aalborg Universitet og arbejder med personaliseringsalgoritmer til daglig.
– Det grundlæggende princip lyder sådan her: På den ene side samler du data om den enkelte bruger for at kunne forstå hans præferencer. Og på den anden side indsamler du data om de produkter eller muligheder, som du gerne vil tilbyde brugeren. Disse data kan bruges til at "matchmake" mellem objekter og brugerens interesser, siger han.
Data om brugerne findes i to former. På den ene side har man "eksplicit data" - det vil sige de data, som brugeren intentionelt stiller til rådighed – som når han bruger sit kreditkort, offentliggør ting på sociale medier eller svarer på et spørgeskema. Den anden form er "implicit data - det vil sige data, som brugeren ikke ved, at han stiller til rådighed.
– Det er alle deres klik, siderne de besøger, aktiviteter de foretager med deres apps og så videre, forklarer Peter Dolog.
Google er en af de virksomheder, der har vist vejen, hvad angår indsamling af implicitte data.
– Google akkumulerer alt, hvad du søger på, og de ved, hvor du er. Og hvis du har en Android-telefon, så kan de spore, hvad du laver, og hvor du er på vej hen. Google ved også, hvilke apps du har, og hvilke spil du spiller. De kan faktisk spore alt, men det forudsætter selvfølgelig, at brugeren giver dem lov til at bruge disse data, fortæller Peter Dolog.
Virksomhedernes overvågning foregår dog hovedsagligt på måder, som brugerne slet ikke opdager – det gælder også Googles overvågning. For eksempel tilbyder Google nogle af verdens mest brugte systemer til personalisering, såsom Double Click og Adsense, der indsamler data om brugerne i det skjulte.
I praksis sker indsamlingen af implicitte data ofte via cookies, der enten lagres på brugerens computer eller på en server. Men selv hvis brugeren konsekvent sletter sine cookies, kan man sagtens identificere ham og samle data om ham. - Når en browser beder om at få en hjemmeside, så sender den en masse information om plugins, browsertype og så videre - der står en masse versionsnumre. Det gør, at man ofte er i stand til at se, i hvert fald med høj sandsynlighed, at to besøg kommer fra samme maskine, siger Rasmus Pagh.
Desuden er det i mange sammenhænge slet ikke nødvendigt at kende brugeren på forhånd: Brugbare data kan samles med få klik.
– Hvis du har fat i en ny bruger, kan du kigge efter mønstre og sammenligne dem med mønstre fra tidligere brugere. Hvis han klikker hjemmesider på en måde, der ligner mønsteret hos en tidligere bruger, som klikkede på en annonce – så lad os give ham den samme annonce. Du behøver ikke ID for at kunne personalisere, siger Peter Dolog.
Store penge
Nutidens personaliserede annoncer rammer ofte helt ved siden af. Men det gør ikke noget, siger Ravi Vatrapu, der forsker i menneske-computer-interaktion på Copenhagen Business School.
– Det eneste, der betyder noget, er, at en lille smule flere brugere klikker på annoncen. Med enorme mængder af brugere kan selv en lille stigning i antallet af klik gøre en meget stor forskel. Ofte er klikraten mindre end to eller tre pr. 1.000 visninger. Men hvis du har fem millioner brugere, så er det et rigtig godt antal klik, siger han.
En anden form for personalisering, der har stor succes, er "collaborative filtering". Det går ud på at matche forskellige brugeres præferencer. For eksempel registrerer Spotify al musik, brugerne hører. Og når Spotifys automatiske software finder ud af, at Bruger A’s musiksmag matcher Bruger B’s og Brugers C’s musiksmag, så kan den foreslå nye bands til Bruger A, som de andre brugere hører, men som Bruger A måske slet ikke kendte.
Amazon var blandt dem, der tidligt fik succes med denne model.
– En af grundene til, at Amazon er blevet så store, er, at virksomheden har knækket koden, når det gælder personalisering: Hvis jeg har købt tre bøger, så får jeg anbefalet en fjerde bog, som rammer plet, siger Aske Kammer, der er medieforsker ved Syddansk Universitet.
Det er dog de færreste virksomheder, der når Amazon til sokkeholderne, hvad personalisering angår. For selv om det lyder simpelt, er det uhyre komplekst at få "collaborative filtering" til at fungere optimalt.
Stor interesse for smartere algoritmer
IDC vurderede i 2012, at mængden af automatisk genererede data vil blive femtendoblet frem mod 2020. Og data om brugeradfærd er en af de former for data, der vokser mest. Med de rette analyseredskaber kan disse data blive til guldgruber for erhvervslivet. Men der ligger store udfordringer forude – ikke mindst de privatlivsmæssige, mener forskerne.
Særligt den omfattende opsnapning af implicitte data volder problemer. Og datagiganter som Google har flere gange mødt massiv kritik fra rettighedsorganisationer – blandt andet fordi Googles algoritmer systematisk læser e-mails med det formål at målrette annoncer bedre.
Brugernes tillid kan hurtigt blive vendt til mistillid.
– Man skal finde måder at gøre det her på, som ikke er krænkende for nogen. Hvis man kommer for tæt på folk, så tror jeg, at de kan blive tilbageholdende med at samarbejde, vurderer Rasmus Pagh.
Et andet spørgsmål er, om brugerne af sociale medier er klar over, at alt, hvad de publicerer, kan blive kategoriseret, analyseret og brugt til blandt andet personaliseringsformål.
”Never tell Facebook anything you don’t want the whole web (and world) to know about you,” som hjemmesiden The Filter Bubble skriver. "The filter bubble" er ikke blot navnet på en hjemmeside - det er også navnet på en anden problematik: Jo mere personaliseret web-oplevelsen bliver, desto mere risikerer den enkelte bruger at komme ind i en spiral – eller en boble - hvor han konstant bliver bekræftet i sine egne præferencer.
Der er også store it-tekniske udfordringer forude. Ikke så meget hvad angår dataindsamlingen, forklarer forskerne, men derimod hvad angår de algoritmer, der skal analysere de kolossale mængder af data.
Rasmus Pagh tager udgangspunkt i "collaborative filtering":
– Lad os sige, at du har 1.000 kunder i dit firma, og du prøver at lave noget personalisering på baggrund af kunder, der ligner hinanden. Du registrerer, at Rasmus og Mikkel ligner hinanden. Hvis Rasmus godt kan lide noget, så kan det være, at Mikkel godt kan lide det samme. Hvis du har 1.000 kunder, så har du cirka en halv million mulige par. Og en halv million er stadigvæk OK, fordi vi har hurtige computere. Men lad os sige, at dit firma vokser enormt og får en million kunder. Så har du pludselig omkring 500 milliarder mulige forbindelser at kigge på. Det vil sige, at du har fået en million gange flere kombinationer, mens din beregningskraft måske kun er vokset med 100 gange, forklarer han.
Dette kaldes en "kombinatorisk eksplosion", og sådan en kan bringe nutidens computersystemer i knæ. En løsningsmodel er at skære ned på mængden af datakilder.
En anden løsning er at udvikle smartere algoritmer, og Rasmus Pagh er en af de utallige forskere, der arbejder på netop dette.
– En måde at løse det på er at lave smartere algoritmer, der undgår den kombinatoriske eksplosion - altså algoritmer, der skyder genveje - ligesom når du slår op i en ordbog, og du kan springe en masse sider over, fordi data er organiseret i sorteret orden. På samme måde findes der en masse algoritmiske genveje, som man kan finde frem til, og som kan gøre tingene meget hurtigere. Big data går hånd i hånd med effektive algoritmer, siger han.
Men selv hvis en virksomhed har løst de privatlivsmæssige og it-tekniske problemer, er det slet ikke givet, at den vil høste frugterne af personaliseringsøvelsen. Effektiv dataanalyse kræver nemlig også stor organisatorisk omstilling og parathed. Det mener i hvert fald Andreas Iversen, direktør hos In2media, der rådgiver om marketingstrategier på nettet og blandt andet er i gang med at producere et personaliseringssystem til Gyldendal.
– Én ting er at købe noget software; noget helt andet er at få det til at fungere. Man kan samle data op herfra og til månen. Men man er nødt til at tildele nogle mennesker ansvaret for dataene, ligesom man har en logistikafdeling og en økonomiafdeling. Mange virksomheder mangler af tage det fulde skridt ind i den her nye data-virkelighed, siger han.