Hardware, Software

Big data udgør en flodbølge af varierede data

Big data betyder ikke bare masser af data. Dataene ankommer også lynhurtigt og i et mylder af formater.

Analytikere og meningsdannere ser big data som en af de hotte tendenser i tiden. Som navnet siger, handler det om store datamængder. Men der ligger mere i begrebet. Eksperterne siger således, at tre krav skal være opfyldt, for at det er big data. Det er de tre V'er: Volume, velocity og variety.

Volume dækker over, at data optræder i stadig større mængder. Nogle af dem er menneskeskabte, men mange data fremstilles automatisk. Hver gang du kører i din bil, genererer dens interne computer data, som mekanikeren kan se, når den er til service. Ligesom din mobiltelefon danner bunkevis af data, ganske som ethvert besøg på en webside.

Velocity betyder hastighed. Big data ankommer hurtigt. Igen er maskinerne en vigtig del af forklaringen: Sensorer, måleapparater og andet udstyr kan danne data så hurtigt, at det er en udfordring bare at opfange og lagre dem.

Variety dækker over variationer i datatyper. Hvor computere i gamle dage primært behandlede tekst og tal, skal vi i dag holde styr på videostrømme, GPS-koordinater, websider, logfiler og meget andet.

Big data vokser, og de vokser hurtigt. 90 procent af alle de data, der findes i verden i dag, fandtes ikke for to år siden. Hver dag danner vi 2,5 trillioner byte data, angiver IBM.

Relationsdatabaser giver op

Konsekvensen af big data er, at vores velkendte it-værktøjer er ved at komme til kort. En traditionel relationsdatabase har svært ved at håndtere alle de tre V'er. Derfor er søgningen efter alternativer godt i gang. Fælles for dem er, at de forsøger at undgå arkitekturer, der sætter grænser for senere vækst.

Et godt eksempel er teknologien MapReduce, som ligger til grund for Hadoop. Store internetvirksomheder som Google, Yahoo og Facebook mærkede hurtigt behovet for at kunne håndtere store og hurtigt voksende datamængder.

Resultatet er en distribueret arkitektur baseret på billige standardkomponenter.
At big data er hot fremgår også af, at Microsoft går ind på området. Firmaet er således i gang med flytte open source-programmet Hadoop over på Windows.

Twitter og vejrudsigt

Big data udgør altså en udfordring for it-området. Men udviklingen betyder også nye muligheder. I takt med at stadig flere data bliver tilgængelige, kan virksomheder og andre få øget viden. Her er et par eksempler:

Hver dag skrives der 12 terabyte beskeder på Twitter. Hvor mange af dem handler om din virksomhed og dens produkter? Skriver folk pænt eller grimt om jer? Den form for markedsanalyse kaldes 'sentiment analysis'. Jo flere data den bygger på, desto klarere et billede kan den tegne.

Vindmøllefabrikken Vestas skal hjælpe sine kunder med at finde det bedste sted at placere en ny vindmølle. Til det formål indsamler man måledata om vind, temperatur, lufttryk og meget andet.

Det hele behandles i en Hadoop-baseret supercomputer med over 14.000 processorkerner og foreløbig 2,6 petabyte datalager. Data herfra ligger i øvrigt bag vejrudsigten på Vejret.dk.

Sikkerheden halter

Flere iagttagere oplever, at big data for øjeblikket primært fokuserer på anvendelsen af data. Derimod mangler der fokus på sikkerheden. Vi ved, hvordan vi analyserer og visualiserer big data, men hvordan sikrer vi dem mod misbrug?

Big data giver dog også nye muligheder for skabe bedre sikkerhed: Man kan bruge big data-metoder til at analysere firewall-logfiler og andre kilder til sikkerhedsdata.