Sådan får du styr på dine aflytningsdata

11. december 2013 kl. 11:01 Systemudvikling og systemer

Hvordan ser din it-arkitektur ud, hvis dine data vokser med mange petabytes hver dag, og dine brugere skal have mulighed for at lave søgninger og udtrække detaljerede rapporter ?

Oprettet af Dan Mygind, freelancejournalist, prosabladet@prosa.dk

Hvad gør du, hvis din datamængde om millioner af personers og virksomheders kommunikation har en eksplosiv daglig vækst på mange petabytes, og dine brugere skal have mulighed for at søge i informationsmængden?

Det spørgsmål har databasefolk, it-arkitekter og udviklere hos den amerikanske efterretningstjeneste NSA skullet finde et fornuftigt svar på. Det er uklart, hvor store datamængder der indsamles via upstream-systemer som Tempora, Blarney, Fairview, Oakstar og Stormbrew, der støvsuger de fiberoptiske kabler for internetkommunikation. Det samme gælder downstream-systemer som Prism-programmet med direkte adgang til data fra store internetvirksomheder som Google, Facebook, Apple og Yahoo. Men alene det britiske upstream-Tempora-program anslås at kunne opsamle 21 petabytes om dagen – hvilket svarer til 250 års uafbrudt videooptagelse i HD-format.

Global adgang

Blandt de lækkede dokumenter, som NSA-whistlebloweren Edward Snowden videregav til den britiske avis The Guardian, er en beskrivelse af systemet Boundless Informant, der fungerer som et datamining/analyse-program, som kan hjælpe med at holde styr på og få indsigt i de enorme databjerge, som NSA og den britiske efterretningstjeneste GCHQ er i gang med at opbygge.
I en tophemmelig præsentation betitlet ”Global Access Operations – The mission never sleeps” hedder det om Boundless Informant: ”Use Big Data technology to query SIGINT collection in the cloud to produce near real-time business intelligence describing the agency's available SIGINT infrastructure and coverage.”

Teknisk arkitektur

På side 3 i en Frequently Asked Questions om Boundless Informant bliver vi lidt klogere på den tekniske arkitektur. Regeringshackerne hos NSA anvender open source-systemet Apache Hadoop HDFS, som er et distribueret filsystem specielt udviklet til at håndtere store datamængder på klynger af standardhardware.
Ifølge FAQ'en anvendes et Java-baseret MapReduce til at transformere og filtrere de indsamlede data og ligeledes ”berige data med forretningslogik og tildeling af organisationsregler til data”.

De behandlede data importeres til Cloudbase, som er et high-performance datawarehouse-system, der kører på toppen af en Map-Reduce-arkitektur.
Til at håndtere forespørgsler med og generere rapporter fra Cloudbase anvendes Java-webapplikationer, der kører på Tomcat-applikationsservere.
Tomcat afvikles på noget, der betegnes som MachineShop (tidligere TurkeyTower). Der er formentlig tale om hardware, men hvilken slags er uvist.

Prosabladet hører gerne fra dig, hvis du har arkitekturdiagrammer for et eller flere af delsystemerne i verdenshistoriens mest omfattende overvågningsystem.

Se flere nyheder

Sådan får du styr på dine aflytningsdata

Global adgang

Teknisk arkitektur

Kodekunst: SPIRAL

Kampen om nettets annoncekroner

En ulv i fåreklæder

Google er en invasiv art

Cookien er død - tracking længe leve

Ledelse på afveje

Krav om højere dagpengesats

Frankensteins digitale monster

Studentersatellit blev en stor succes

Arbejdsretten: Fyring af nyvalgte tillidsfolk ulovlig

Sig ordentligt op

Tag hånden fra munden

< 1992 >

Debat: Den yndefulde svane

Kamp mod biometriske data

Kritik af kommunalt it-system

AI giver øget risiko for diskrimination

Projektansættelser vokser i it-branchen

Digital suverænitet i EU

Byg selv dine apps

Afkodet: Martin Brummerstedt

Sådan får du styr på dine aflytningsdata

Global adgang

Teknisk arkitektur

Artikler, samme emne

Kodekunst: SPIRAL

Kampen om nettets annoncekroner

En ulv i fåreklæder

Google er en invasiv art

Cookien er død - tracking længe leve

Ledelse på afveje

Krav om højere dagpenge­sats

Frankensteins digitale monster

Studentersatellit blev en stor succes

Arbejdsretten: Fyring af nyvalgte tillidsfolk ulovlig

Sig ordentligt op

Tag hånden fra munden

< 1992 >

Debat: Den yndefulde svane

Kamp mod biometriske data

Kritik af kommunalt it-system

AI giver øget risiko for diskrimination

Projektansættelser vokser i it-branchen

Digital suverænitet i EU

Byg selv dine apps

Afkodet: Martin Brummerstedt

Dine oplysninger

Krav om højere dagpengesats