Dagens Big Data-utmaning härrör från variation, inte volym eller hastighet

Innehåll

Tre Vs big data
Att ta itu med datavariet-problemet
Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv

Hämtmat:

Alltför många IT-avdelningar kastar allt de har på frågan om datavolym och hastighet, och glömmer att ta itu med den grundläggande frågan om olika data.

Utmaningen att hantera och utnyttja big data kommer från tre delar, enligt Doug Laney, forskningsdirektör på Gartner. Laney noterade först för mer än ett decennium sedan att big data utgör ett sådant problem för företaget eftersom det introducerar svårhanterlig volym, hastighet och variation. Problemet är att för många IT-avdelningar kastar allt de har på frågan om datavolym och hastighet, och glömmer att ta itu med den grundläggande frågan om olika dator.

Redan 2001 skrev Laney att "ledande företag i allt högre grad kommer att använda ett centraliserat datalager för att definiera ett gemensamt affärsordförråd som förbättrar det interna och externa samarbetet." Frågan om detta ordförråd - och variationen som hindrar företag från att skapa det - är fortfarande den minst behandlade aspekten av big data conundrum idag. (Kolla in vad andra experter har att säga. Kolla in Big Data-experter att följa med.)

Tre Vs big data

Många företag har hittat metoder för att utnyttja ökad datamängd och hastighet. kan till exempel analysera enorma datamängder. Naturligtvis presenteras dessa data ofta om och om igen inom samma parametrar. Detta ledde till tekniska innovationer som kolumndatabaser, som nu används i stor utsträckning av andra företag som står inför lika stora butiker av liknande dataobjekt.

När det gäller taminghastighet hjälper leverantörer som Splunk företag att analysera snabbt skapade data genom loggfiler som fångar flera tusen händelser per sekund. Denna analys av händelser med hög volym riktar sig till säkerhets- och prestationsövervakningsanvändningsfall. Liksom med datamängdutmaningen har hastighetsutmaningen till stor del tagits upp genom sofistikerade indexeringstekniker och distribuerad dataanalys som möjliggör skalningskapacitet att skala med ökad datahastighet.

Men när det gäller mångfald, står för många företag fortfarande inför ett stort problem i sin strategi för analys av big data. Detta problem drivs av tre faktorer: Först på grund av tillväxt, förvärv och tekniska innovationer som lägger till nya system i miljön, är företag låsta i en mycket heterogen miljö och denna heterogenitet ökar bara med tiden. Företag måste spåra en mängd typer av system och hantera tiotusentals datatyper, liksom samma data som representeras med olika nomenklaturer och format.

För det andra rapporterar dessa system och datatyper i många fall både relevant information och information som säkert kan filtreras ut som irrelevant för problemet. Det finns ett behov av att pålitligt identifiera påverkande information.

Den tredje dimensionen till sortutmaningen är den ständiga variationen eller förändringen i miljön. System uppgraderas, nya system introduceras, nya datatyper läggs till och ny nomenklatur introduceras. Detta ytterligare anstränger vår förmåga att tämja utmaningen med datavariatet. Detta lägger till ett extra lager till sortens utmaning. (För mer insikt, kolla in Big Data: How It Captured, Crunched and Used to Make Business Decisions.)

Att ta itu med datavariet-problemet

För att hantera datorsortproblemet måste företagen börja med IT-domänen, eftersom det ofta representerar de värsta gärningsmännen och de värsta offren för sortsproblemet. Det första steget är att börja med en omfattande definition eller taxonomi av alla IT-element eller tillgångar. Detta ger en baslinje eller grund för att hänvisa till allt i eller om IT och gör det möjligt för företag att hantera den ökande heterogeniteten mot en känd taxonomi eller terminologi.

Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv

Du kan inte förbättra dina programmeringsfärdigheter när ingen bryr sig om mjukvarukvalitet.

Nästa steg är att identifiera de många sätten som samma objekt representeras över olika skivsystem. Detta gör att IT-proffs kan titta över sin heterogena miljö och starkt filtrera och komprimera informationen till relevanta och hanterbara bitar.

Slutligen måste IT-chefer anta en process med ständig granskning av miljön för förändringar som nya typer av element som införs eller ny nomenklatur för att hänvisa till samma element.

Med dessa steg kan IT-organisationer hantera olika problem och få djupa insikter som historiskt har undvikit IT-team. Dessutom förbättrar hanteringen av olika problem enormt deras avkastning på investeringar i verktyg och tekniker som hanterar de mer traditionella big data-problemen med volym och hastighet.