Hvad gør du, hvis din datamængde om millioner af personers og virksomheders kommunikation har en eksplosiv daglig vækst på mange petabytes, og dine brugere skal have mulighed for at søge i informationsmængden?
Det spørgsmål har databasefolk, it-arkitekter og udviklere hos den amerikanske efterretningstjeneste NSA skullet finde et fornuftigt svar på. Det er uklart, hvor store datamængder der indsamles via upstream-systemer som Tempora, Blarney, Fairview, Oakstar og Stormbrew, der støvsuger de fiberoptiske kabler for internetkommunikation. Det samme gælder downstream-systemer som Prism-programmet med direkte adgang til data fra store internetvirksomheder som Google, Facebook, Apple og Yahoo. Men alene det britiske upstream-Tempora-program anslås at kunne opsamle 21 petabytes om dagen – hvilket svarer til 250 års uafbrudt videooptagelse i HD-format.
Global adgang
Blandt de lækkede dokumenter, som NSA-whistlebloweren Edward Snowden videregav til den britiske avis The Guardian, er en beskrivelse af systemet Boundless Informant, der fungerer som et datamining/analyse-program, som kan hjælpe med at holde styr på og få indsigt i de enorme databjerge, som NSA og den britiske efterretningstjeneste GCHQ er i gang med at opbygge.
I en tophemmelig præsentation betitlet ”Global Access Operations – The mission never sleeps” hedder det om Boundless Informant: ”Use Big Data technology to query SIGINT collection in the cloud to produce near real-time business intelligence describing the agency's available SIGINT infrastructure and coverage.”
Teknisk arkitektur
På side 3 i en Frequently Asked Questions om Boundless Informant bliver vi lidt klogere på den tekniske arkitektur. Regeringshackerne hos NSA anvender open source-systemet Apache Hadoop HDFS, som er et distribueret filsystem specielt udviklet til at håndtere store datamængder på klynger af standardhardware.
Ifølge FAQ'en anvendes et Java-baseret MapReduce til at transformere og filtrere de indsamlede data og ligeledes ”berige data med forretningslogik og tildeling af organisationsregler til data”.
De behandlede data importeres til Cloudbase, som er et high-performance datawarehouse-system, der kører på toppen af en Map-Reduce-arkitektur.
Til at håndtere forespørgsler med og generere rapporter fra Cloudbase anvendes Java-webapplikationer, der kører på Tomcat-applikationsservere.
Tomcat afvikles på noget, der betegnes som MachineShop (tidligere TurkeyTower). Der er formentlig tale om hardware, men hvilken slags er uvist.
Prosabladet hører gerne fra dig, hvis du har arkitekturdiagrammer for et eller flere af delsystemerne i verdenshistoriens mest omfattende overvågningsystem.