Når Googles nye FLoC API i disse dage gør sin debut i nøje udvalgte lande i verden, er alt ikke, som det ser ud på overfladen.
FLoC, som står for Federated Learning on Cohorts, er sat i verden for at gøre det lettere at servere relevante reklamer. Det er også en af de nye mere privatlivsvenlige teknologier, der skal erstatte de tredjepartscookies, som Google har lovet at pensionere senest i 2022, og som i dag er et af grundelementerne i den milliardstore globale annoncebranche.
Men FLoC-navnet snyder, siger Pete Snyder, der er formand for privatlivsarbejdsgruppen i W3C’s – konsortiet, der styrer de globale webstandarder.
– Den nuværende version er overhovedet ikke Federated Learning, siger han.
Federated Learning er den særlige retning inden for kunstig intelligens, som blandt andre Googles topchef, Sundai Pichai, tidligere har talt begejstret om. Men hvad er FLoC så, og hvorfor har Google puttet FL i navnet? Prosabladet giver dig svarene.
Sådan virker FLoC
Teknisk set er FLoC en ny webstandard, som gør det muligt for en hjemmeside eller et reklamenetværk at spørge din browser, hvilken type forbruger, du er og regne ud, om du er mest til biler, designermøbler eller gør-det-selv produkter.
FLoC udregner din brugerprofil ved at tjekke din browserhistorik og se, hvilke domæner du har besøgt de seneste syv dage. Herudfra udregnes en særlig brugervektor, der udtrykker dit domænemiks. Da næsten ingen besøger præcist de samme sites, vil din brugervektor næsten uundgåeligt være unik.
Brugervektoren er derfor præcis, men ikke særligt anonym, endsige privacy-venlig. Derfor grupperer FLoC nu brugere, der har relativt ens brugerprofiler. Grupperne får hver deres Cohort ID. Det er dette, nu mere anonyme, Cohort ID, som FLoC fortæller videre til hjemmesider og reklamenetværk.
– Det er ret gennemtænkt, fortæller Thomas Dybdahl Ahle, som er en af de få danskere, der har fingeren på FLoC-pulsen.
Den 30-årige Research Scientist og ph.d. i maskinlæringsalgoritmer hæfter sig ved, at rådata i FLoC aldrig forlader den enkelte brugers device. Dermed undgår man, at et enkelt firma sidder med al data. Og det er netop den privacy, der ligger i FLoC’s gruppedannelse.
Gruppedannelsen foregår ved, at FLoC først SimHash’er brugerne. Det sker ved at afrunde koordinaterne i den enkelte brugers brugervektor til 0 og 1 i stedet for de plus-minustal, den ligesom alle andre vektorer kan være født med. I sig selv vil denne operation betyde, at flere forskellige brugervektorer afrundes til samme SimHash, og at flere brugere på den måde ender i samme SimHash-gruppe.
Da det hele sker lokalt på brugerens eget device, kan FLoC dog ikke fortælle, hvor mange brugere der er i hver SimHash-gruppe. Den kan heller ikke garantere, at der er tilstrækkeligt mange til, at gruppen forbliver rimeligt anonym.
Prefix LSH danner større grupper
Derfor tager FLoC nu en anden algoritme i brug: Prefix LSH. Prefix LSH stiller alle SimHash’ene op i et langt forgrenet træ og slår hver af de SimHashes, der ligner hinanden mest, sammen, indtil der er mindst et par tusind brugere i hver gruppe.
Hver af disse grupper navngives, og det er dette gruppenavn, der altså afslører din gruppes særlige type, og som FLoC fortæller hjemmesideejere og reklamenetværk om, når du besøger deres sites, så de kan vise dig annoncer, der passer til dig netop nu.
Jo bedre algoritmen bliver, jo større risici har modellen også
På den måde sikrer FLoC dig både en vis portion anonymitet, fordi du er gemt bag dit gruppenavn, og fordi data bor på dit eget device – og ikke en central server. Derfor, mener Google, er FLoC – og SimHash og Prefix LSH – et stort privatlivsmæssig skridt frem. Alle indgår de i Privacy Sandbox, som er Googles nye satsning på privatlivsbeskyttelse.
”Vi er mere sikre end nogensinde før på, at Privacy Sandbox er den bedste vej fremad til at forbedre privatlivsbeskyttelsen på nettet”, skriver Chetna Bindra, en af Googles eksperter på området, på Googles blog.
SimHash’ akilleshæl
Om SimHash også i fremtiden vil være en integreret del af FLoC er dog tvivlsomt. For selvom det hjælper til i anonymiseringsprocessen, har SimHash en akilleshæl: Den er ikke selvlærende. Den bliver ikke smartere og mere præcis, jo mere den bliver brugt.
Skal SimHash-algoritmen optimeres, er der nogen, der fra centralt hold skal tilrette koden og sørge for, at den opdateres på alle de mange enheder, den kører på. Uden at have adgang til data, der jo kun findes på brugernes devices.
Det er præcis dette problem, som Federated Learning løser. Federated Learning betyder ”læring i fællesskab” og er et maskinlærings-framework, hvor en masse decentrale devices samles om i fællesskab at forbedre den samme maskinlæringsmodel, uden at data fra det enkelte device deles – hverken med de andre devices eller den centrale instans.
Det foregår ved, at den model, der skal trænes, først skubbes ud til et antal devices, der kører modellen på de data, de hver især selv kender til. De enkelte devices evaluerer og forbedrer modellen og sender deres forslag til ændringer tilbage til den centrale instans i en krypteret secure aggregation-proces, hvor de enkelte ændringer hver især indeholder deres del af den samlede krypteringsnøgle. Modelændringerne kan først dekrypteres, når de alle er samlet. Ændringsforslagene konsolideres sammen i en ny, forbedret model, der nu kan sendes til et nyt antal devices i en proces, der fortsætter, til man synes, modellen er god nok.
Det er sådan, Federated Learning-modeller kan trænes op, lidt efter lidt og i fuld anonymitet, på selv meget store datamængder.
SimHash kan skiftes ud
At det er SimHash, Google bruger, til at profilere og gruppere dig, er da heller ikke hugget i sten.
– FLoC-standarden siger bare, at browseren skal kunne give en Cohort ID til hjemmesiden, men den stiller ikke nogen krav om, hvordan browseren vælger det, siger Thomas Ahle.
Privatlivseksperten Pete Snyder fra W3C er enig:
– SimHash er et rent implementeringsvalg. Det vil ikke ændre noget ved FLoC overhovedet, hvis de vælger at bruge en anden måde at opdele brugerne i grupper på.
Meget tyder derfor på, at FL i FLoC slet ikke er en fejl. For når SimHash-algoritmen på et tidspunkt udskiftes, står Federated Learning klar som den sandsynlige arving.
– Målet er, at FLoC selv skal kunne lære nye grupper at kende. Når det sker, bliver det et rigtigt Federated Learning system. Det er den langsigtede plan, siger Pete Snyder.
Men det er ikke noget, han er begejstret for.
– Jo bedre algoritmen bliver, jo større risici har modellen også, siger han.