Vad är “big data”?
“Big data” är ett paraplybegrepp som används för att beskriva extremt stora datamängder som är svåra att bearbeta och analysera på rimlig tid med traditionella metoder.
“Big data” består av strukturerad, ostrukturerad och semistrukturerad data. Den kännetecknas formellt av sina fem V: volym, hastighet, variation, sanningsenlighet och värde.
- Volym beskriver den massiva skalan och storleken på datamängder som innehåller terabyte, petabyte eller exabyte av data.
- Hastighet beskriver den höga hastighet med vilken enorma mängder ny data genereras.
- Variety beskriver det breda sortimentet av datatyper och format som genereras.
- Veracity beskriver kvaliteten och integriteten hos data i en extremt stor datamängd.
- Värde beskriver datans förmåga att omvandlas till handlingsbara insikter.
Exempel
Big data kommer från en mängd olika källor inom olika branscher och domäner. Nedan följer några exempel på källor till stora datamängder och vilka typer av data de innehåller.
Källa för stora datamängder | Beskrivning |
Kunddata | Data som samlas in via CRM-system, inklusive kundprofiler, försäljningsregister och kundinteraktioner. |
E-handelstransaktioner | Data som genereras från detaljhandelsplattformar online, inklusive kundorder, produktinformation, betalningsinformation och kundrecensioner. |
Finansiella transaktioner | Uppgifter från banksystem, kreditkortstransaktioner, aktiemarknader och andra finansiella plattformar. |
Statliga och offentliga uppgifter | Data från statliga myndigheter, folkräkningsdata, kollektivtrafikdata och väderdata. |
Hälso- och sjukvårdsjournaler | Data från elektroniska patientjournaler (EHR), medicinsk avbildning, bärbara hälsoenheter, kliniska prövningar och patientövervakningssystem. |
Enheter för sakernas internet (IoT) | Data som samlas in från olika IoT-enheter som intelligenta sensorer, smarta apparater, bärbara enheter och uppkopplade fordon. |
Forskning och vetenskapliga data | Data från forskningsexperiment, akademiska studier, vetenskapliga observationer, simuleringar av digitala tvillingar och genomisk sekvensering. |
Nätverk för sensorer | Data som samlas in från miljösensorer, industrimaskiner, trafikövervakningssystem och andra trådlösa sensornätverk. |
Plattformar för sociala medier | Data som genereras från sociala medieplattformar som Facebook, Twitter, Instagram och LinkedIn, inklusive inlägg, kommentarer, gillamarkeringar, delningar och användarprofiler. |
Webb- och mobilapplikationer | Data som skapas av användare när de interagerar med webbplatser, mobilappar och onlinetjänster, inklusive klick, sidvisningar och användarbeteende. |
Betydelse
Big data är viktigt på grund av dess potential att avslöja mönster, trender och andra insikter som kan användas för att fatta datadrivna beslut.
Ur ett affärsperspektiv hjälper big data organisationer att förbättra den operativa effektiviteten och optimera resurserna. Genom att sammanställa stora datamängder och använda dem för att analysera kundbeteenden och marknadstrender kan till exempel ett e-handelsföretag fatta beslut som leder till ökad kundnöjdhet, lojalitet – och i slutändan intäkter.
Utvecklingen av verktyg med öppen källkod som kan lagra och bearbeta stora datamängder har avsevärt förbättrat analys av stora datamängder. Apaches aktiva communities har till exempel ofta fått äran för att ha gjort det enklare för nybörjare att använda big data för att lösa verkliga problem.
Olika typer av Big Data
Big data kan kategoriseras i tre huvudtyper: strukturerad, ostrukturerad och semistrukturerad data.
- Strukturerad big data: Den är välorganiserad och följer ett fördefinierat schema eller format. De lagras vanligtvis i kalkylblad eller relationsdatabaser. Varje dataelement har en specifik datatyp och är associerat med fördefinierade fält och tabeller. Strukturerad data kännetecknas av att den är konsekvent och enhetlig, vilket gör det lättare att ställa frågor, analysera och bearbeta den med hjälp av traditionella databashanteringssystem.
- Ostrukturerad big data: Den har ingen fördefinierad struktur och kan eller kan inte upprätta tydliga relationer mellan olika dataenheter. För att identifiera mönster, känslor, relationer och relevant information i ostrukturerade data krävs vanligtvis avancerade AI-verktyg som bearbetning av naturligt språk (NLP), förståelse av naturligt språk (NLU) och datorseende.
- Semistrukturerad big data: innehåller element av både strukturerad och ostrukturerad data. De har en partiell organisationsstruktur, t.ex. XML- eller JSON-filer, och kan innehålla loggfiler, sensordata med tidsstämplar och metadata.
I de flesta fall är en organisations data en blandning av alla tre datatyper. Till exempel kan en stor datauppsättning för en e-handelsleverantör innehålla strukturerade data från kunddemografi och transaktionsregister, ostrukturerade data från kundfeedback på sociala medier och halvstrukturerade data från intern e-postkommunikation.
Utmaningar
Utvecklingen av big data sedan början av seklet har varit en berg- och dalbana av utmaningar som följts av lösningar.
Till en början var ett av de största problemen med de enorma mängder data som genererades på internet att traditionella databashanteringssystem inte var utformade för att lagra den enorma mängd data som företagen producerade när de blev digitala.
Ungefär samtidigt blev datavariationen en stor utmaning. Förutom traditionella strukturerade data introducerade sociala medier och IoT semistrukturerade och ostrukturerade data i mixen. Företagen var därför tvungna att hitta sätt att effektivt bearbeta och analysera dessa varierande datatyper, en uppgift som traditionella verktyg var dåligt lämpade för.
I takt med att datavolymen växte ökade också mängden felaktig, inkonsekvent eller ofullständig information, och datahanteringen blev ett stort hinder.
Det dröjde inte länge förrän de nya användningsområdena för extremt stora datamängder väckte ett antal nya frågor om datasekretess och informationssäkerhet. Organisationerna behövde vara mer transparenta med vilka data de samlade in, hur de skyddade dem och hur de använde dem.
Olika datatyper måste vanligtvis kombineras till ett enda, konsekvent format för dataanalys. De många olika datatyperna och -formaten i stora semistrukturerade datauppsättningar innebär fortfarande utmaningar för dataintegrering, analys och tolkning.
Ett företag kan till exempel behöva kombinera data från en traditionell relationsdatabas (strukturerad data) med data som hämtats från inlägg på sociala medier (ostrukturerad data). Processen att omvandla dessa två datatyper till ett enhetligt format som kan användas för analys kan vara tidskrävande och tekniskt svår.
Framsteg inom maskininlärning och artificiell intelligens (AI) har bidragit till att lösa många av dessa utmaningar, men de är inte utan sina egna svårigheter.
Verktyg för stora datamängder
Att hantera stora datamängder som innehåller en blandning av datatyper kräver specialiserade verktyg och tekniker som är skräddarsydda för hantering och bearbetning av olika dataformat och distribuerade datastrukturer. Populära verktyg är t.ex:
- Azure Data Lake: En molntjänst från Microsoft som är känd för att förenkla komplexiteten i att ta in och lagra stora mängder data.
- Beam: En enhetlig programmeringsmodell med öppen källkod och en uppsättning API:er för batch- och streambearbetning i olika ramverk för big data.
- Cassandra: En öppen källkod, mycket skalbar, distribuerad NoSQL-databas utformad för hantering av massiva mängder data över flera råvaror servrar.
- Databricks: En enhetlig analysplattform som kombinerar datateknik och datavetenskap för bearbetning och analys av massiva datamängder.
- Elasticsearch: En sök- och analysmotor som möjliggör snabb och skalbar sökning, indexering och analys för extremt stora datamängder.
- Google Cloud: En samling verktyg och tjänster för stora datamängder som erbjuds av Google Cloud, t.ex. Google BigQuery och Google Cloud Dataflow.
- Hadoop: Ett allmänt använt ramverk med öppen källkod för bearbetning och lagring av extremt stora datamängder i en distribuerad miljö.
- Hive: Ett verktyg med öppen källkod för datalagring och SQL-liknande frågor som körs ovanpå Hadoop för att underlätta frågor och analys av stora datamängder.
- Kafka: En distribuerad streamingplattform med öppen källkod som möjliggör databehandling och meddelanden i realtid.
- KNIME Big Data Extensions: Integrerar kraften i Apache Hadoop och Apache Spark med KNIME Analytics Platform och KNIME Server.
- MongoDB: En dokumentorienterad NoSQL-databas som ger hög prestanda och skalbarhet för big data-applikationer.
- Pig: Ett skriptspråk för dataflöde med öppen källkod på hög nivå och ett exekveringsramverk för bearbetning och analys av stora datamängder.
- Redshift: Amazons fullt hanterade datalagertjänst i petabyte-skala.
- Spark: En databehandlingsmotor med öppen källkod som ger snabb och flexibel analys och databehandlingsfunktioner för extremt stora datamängder.
- Splunk: En plattform för sökning, analys och visualisering av maskingenererade data, t.ex. loggar och händelser.
- Tableau: Ett kraftfullt verktyg för datavisualisering som hjälper användare att utforska och presentera insikter från stora datamängder.
- Talend: Ett verktyg för dataintegration och ETL (Extract, Transform, Load) med öppen källkod som underlättar integration och bearbetning av extremt stora datamängder.
Stora datamängder och AI
Big data har varit nära kopplat till framsteg inom artificiell intelligens som generativ AI, eftersom AI-modeller fram till nyligen behövde matas med stora mängder träningsdata för att kunna lära sig att upptäcka mönster och göra korrekta förutsägelser.
Tidigare gällde axiomet “Big data är för maskiner. Small data är för människor.” för att beskriva skillnaden mellan big data och small data, men den liknelsen stämmer inte längre. I takt med att AI- och ML-tekniken fortsätter att utvecklas minskar behovet av big data för att träna vissa typer av AI- och ML-modeller, särskilt i situationer där det är tidskrävande och dyrt att samla in och hantera stora datamängder.
I många verkliga scenarier är det inte möjligt att samla in stora mängder data för varje möjlig klass eller koncept som en modell kan stöta på. Följaktligen har det funnits en trend mot att använda grundmodeller för big data för förträning och små datauppsättningar för att finjustera dem.
Övergången från big data till att använda små datamängder för att träna AI- och ML-modeller drivs av flera tekniska framsteg, inklusive transfer learning och utvecklingen av zero-shot, one-shot och few-shot inlärningsmodeller.