Hva er big data?
Big Data er et samlebegrep som brukes for å beskrive ekstremt store datasett som er vanskelige å behandle og analysere på en rimelig tid med tradisjonelle metoder.
Oftest består big data av strukturerte, ustrukturerte og semistrukturerte data. Det kjennetegnes formelt av sine fem V’er: volum, velocity, variety, veracity og value.
- Volume beskriver den enorme skalaen og størrelsen på datasett som inneholder terabyte, petabyte eller exabyte med data.
- Velocity beskriver den høye hastigheten som store mengder nye data genereres.
- Variety beskriver det brede utvalget av datatyper og formater som genereres.
- Veracity beskriver kvaliteten og integriteten til dataene i et ekstremt stort datasett.
- Value beskriver dataenes evne til å bli omdannet til handlingsrettet innsikt.
Eksempler
Big Data kommer fra en rekke kilder på tvers av ulike bransjer og domener. Nedenfor er noen eksempler på kilder til store datasett og typene data de inkluderer.
Big Data Kilde | Beskrivelse |
Kundedata | Data samlet gjennom CRM-systemer, inkludert kundeprofiler, salgsopptegnelser og kundeinteraksjoner. |
E-commerce transaksjoner | |
Finansielle transaksjoner | Data hentet fra banksystemer, kredittkorttransaksjoner, aksjemarkeder og andre finansielle plattformer. |
Offentlige data | Data levert av offentlige etater, folketellingsdata, offentlig transportdata og værdata. |
Helse- og Medisinske Register | Data fra elektroniske pasientjournaler (EHR), medisinsk bildebehandling, bærbare helseenheter, kliniske studier og pasientovervåkingssystemer. |
Internet of Things (IoT) enheter | Data samlet fra ulike IoT-enheter som intelligente sensorer, smarte apparater, bærbare enheter og tilkoblede kjøretøy. |
Forskning og Vitenskapelige Data | Data fra forskningseksperimenter, akademiske studier, vitenskapelige observasjoner, digitale tvilling-simuleringer og genomsekvensering. |
Sensor Nettverk | Data samlet fra miljøsensorer, industriell maskineri, trafikkovervåkingssystemer og andre trådløse sensornettverk |
Sosiale Medieplattformer | Data generert fra sosiale medieplattformer som Facebook, Twitter, Instagram og LinkedIn, inkludert innlegg, kommentarer, likes, delinger og brukerprofiler. |
Nett- og Mobilapplikasjoner | Data produsert av brukere under interaksjon med nettsteder, mobilapper og nettbaserte tjenester, inkludert klikk, sidevisninger og brukeratferd. |
Betydning
Ulike typer Big Data
Big Data kan kategoriseres i tre hovedtyper: strukturerte, ustrukturerte og semistrukturerte data.
- Strukturert Big Data: Det er svært organisert og følger et forhåndsdefinert skjema eller format. Det lagres vanligvis i regneark eller relasjonsdatabaser. Hvert datavare har en spesifikk datatype og er assosiert med forhåndsdefinerte felt og tabeller. Strukturert data kjennetegnes av sin konsistens og ensartethet, noe som gjør det lettere å spørre, analysere og behandle ved hjelp av tradisjonelle databasestyringssystemer.
- Ustrukturert Big Data: Det har ikke en forhåndsdefinert struktur og kan eller ikke etablere tydelige relasjoner mellom forskjellige dataenheter. Identifisering av mønstre, følelser, relasjoner og relevant informasjon innen ustrukturerte data krever vanligvis avanserte AI-verktøy som naturlig språkbehandling (NLP), naturlig språkforståelse (NLU) og datavisjon.
- Semistrukturert Big Data: inneholder elementer av både strukturerte og ustrukturerte data. Det besitter en delvis organisatorisk struktur, som XML- eller JSON-filer, og kan inkludere loggfiler, sensordata med tidsstempel og metadata.
I de fleste tilfeller er en organisasjons data en blanding av alle tre datatyper. For eksempel kan et stort datasett for en e-handelsleverandør inkludere strukturerte data fra kundedemografi og transaksjonsopptegnelser, ustrukturerte data fra kundetilbakemeldinger på sosiale medier og semistrukturerte data fra intern e-postkommunikasjon.
Utfordringer
Utviklingen av big data siden begynnelsen av århundret har vært en berg-og-dalbane av utfordringer etterfulgt av løsninger.
I starten var et av de største problemene med de enorme mengdene data som ble generert på internett, at tradisjonelle databasestyringssystemer ikke var designet for å lagre den rene datamengden produsert av bedrifter som digitaliserte seg.
Omtrent samtidig ble dataenes variasjon en betydelig utfordring. I tillegg til tradisjonell strukturert data, introduserte sosiale medier og IoT semi-strukturerte og ustrukturerte data i blandingen. Som et resultat måtte selskaper finne måter å effektivt prosessere og analysere disse varierte datatypene, en annen oppgave som tradisjonelle verktøy var dårlig egnet for.
Ettersom datavolumet vokste, økte også mengden av feilaktige, inkonsistente eller ufullstendige informasjoner, og datamaskinering ble en betydelig hindring.
Det tok ikke lang tid før nye bruksområder for ekstremt store datasett reiste en rekke nye spørsmål om databeskyttelse og informasjonssikkerhet. Organisasjoner måtte være mer transparente om hvilke data de samlet inn, hvordan de beskyttet dem, og hvordan de brukte dem.
Ulike datatyper må typisk kombineres til et enkelt, konsistent format for dataanalyse. Variasjonen av datatyper og formater i store semi-strukturerte datasett gir fortsatt utfordringer for dataintegrasjon, analyse og tolkning.
For eksempel kan et selskap måtte blande data fra en tradisjonell relasjonsdatabase (strukturerte data) med data skrapt fra sosiale medieinnlegg (ustrukturerte data). Prosessen med å transformere disse to datatypene til et enhetlig format som kan brukes til analyse kan være tidkrevende og teknisk vanskelig.
Fremskritt innen maskinlæring og kunstig intelligens (AI) har bidratt til å adressere mange av disse utfordringene, men de er ikke uten sine egne sett med vanskeligheter.
Big Data Verktøy
Å håndtere store datasett som inneholder en blanding av datatyper krever spesialiserte verktøy og teknikker skreddersydd for å håndtere og prosessere varierte dataformater og distribuerte datastrukturer. Populære verktøy inkluderer:
- Azure Data Lake: En Microsoft skytjeneste kjent for å forenkle kompleksiteten av å innta og lagre store mengder data.
- Databricks: En enhetlig analyseplattform som kombinerer dataingeniør- og datavitenskapsfunksjoner for behandling og analyse av store datasett.
- Elasticsearch: En søke- og analyseplattform som muliggjør rask og skalerbar søking, indeksering og analyse for ekstremt store datasett.
- Google Cloud: En samling av big data-verktøy og -tjenester tilbudt av Google Cloud, slik som Google BigQuery og Google Cloud Dataflow.
- Hadoop: Et mye brukt åpen kildekode-rammeverk for behandling og lagring av ekstremt store datasett i et distribuert miljø.
- Hive: Et åpen kildekode-datahotell og SQL-lignende spørringsverktøy som kjører på toppen av Hadoop for å legge til rette for spørring og analyse av store datasett.
- Kafka: En åpen kildekode distribuert strømningsplattform som tillater sanntids databehandling og meldinger.
- KNIME Big Data Extensions: Integrerer kraften til Apache Hadoop og Apache Spark med KNIME Analytics Platform og KNIME Server.
- MongoDB: En dokumentorientert NoSQL-database som gir høy ytelse og skalering for big data-applikasjoner.
- Pig: Et åpen kildekode høynivå dataflyt-skriptspråk og utførelsesrammeverk for behandling og analyse av store datasett.
- Redshift: Amazons fullt administrerte, petabyte-skala datahotell-tjeneste.
- Spark: En åpen kildekode dataprosesseringsmotor som gir raske og fleksible analyse- og databehandlingskapasiteter for ekstremt store datasett.
- Splunk: En plattform for søking, analyse og visualisering av maskin-genererte data, slik som logger og hendelser.
- Tableau: Et kraftig data-visualiseringsverktøy som hjelper brukere med å utforske og presentere innsikt fra store datasett.
- Talend: Et åpen kildekode dataintegrerings- og ETL (Extract, Transform, Load) verktøy som legger til rette for integrering og behandling av ekstremt store datasett.