6 stora myter om hantering av Big Data

Video: My job is to observe the forest and something strange is happening here.

Innehåll

Myt: Alla ligger framför oss när det gäller att anta big data.
Myt: Vi har så mycket data; vi behöver inte oroa oss för varje liten datafeil.
Myt: Big datateknik eliminerar behovet av dataintegration.
Myte: Att använda ett datalager för avancerad analys är meningslöst.
Myt: Datasjöer kommer att ersätta datalageret.
Big Data Works - Nya datamanipuleringsmetoder kanske inte

Källa: Dwnld777 / Dreamstime.com

Hämtmat:

Big data är stora affärer, men bara om de används korrekt.

I maj 2014 utfärdade Forrester Research två rapporter som drar vissa slutsatser om hype kring big data. Forskningsföretaget undersökte mer än 250 marknadsförare och affärsutvecklingschefer. Enligt rapporternas författare är big data-retorik på en hög tid och teknologileverantörer visar produkter med vad som verkar vara otroliga påståenden.

Gartner håller med Forrester Research; betydande hype omger stor data. I rapporten från september 2014 släpper Gartner fem av de största datamyterna, och Gartner-analytiker erbjuder sin åsikt om vad som missförstås om big data och dess manipulation. Så vad är stora datasmyter? Låt oss ta en titt.

Myt: Alla ligger framför oss när det gäller att anta big data.

Gartner säger att intresset för big data är på ett hela tiden. Trots detta har 13 procent av de tillfrågade arbetande systemen. Anledningen: de flesta företag har ännu inte kommit fram till hur man kan bryta ut något värde från stora databaser. Här är Gartners undersökning mer optimistisk än Forrester-rapporten, som konstaterade att endast 9 procent av undersökningsdeltagarna sa att de planerade att genomföra tehcnologier med stor data under nästa år. (Big data har mycket att erbjuda. Lär dig mer i 5 verkliga problem Big Data kan lösa.)

Myt: Vi har så mycket data; vi behöver inte oroa oss för varje liten datafeil.

Gartner är orolig för en sannbarhet som vi människor har: "Vi har så mycket, det lilla som är dåligt spelar ingen roll." Ted Friedman, vice president och utmärkt analytiker på Gartner anser att detta är fel sätt att titta på situationen.

"I verkligheten, även om varje enskild brist har en mycket mindre inverkan på hela datasatsen än det gjorde när det fanns mindre data, finns det fler brister än tidigare eftersom det finns mer data," sa Friedman. "Därför förblir den totala effekten av data av dålig kvalitet på hela datasättet densamma."

Friedman lägger till ytterligare ett skäl till oro. Big data-fångst inkluderar ofta data utanför verksamheten, som därför är av okänd struktur och ursprung. Detta ökar risken för fel.

Myt: Big datateknik eliminerar behovet av dataintegration.

Det finns två viktiga dataanalysstrategier som kan tillämpas på big data: "schema on write" eller "schema on read." Fram till nyligen var schema för skrivning den enda metod som använts. Schema vid avläsning är den aktuella vilen i databashantering. Till skillnad från schema för skrivning, som kräver ett strukturerat format, laddas data i schema-på-läs-databaser i dess råformat. Sedan böjer utvecklare - med ostrukturerade databasplattformar som Hadoop - skillnaderna i ett användbart format. Lästa schema har uppenbara fördelar, men som Gartner nämner måste dataintegration ske vid någon tidpunkt.

Myte: Att använda ett datalager för avancerad analys är meningslöst.

Att spendera tiden för att skapa ett datalager verkar meningslöst för många informationshanterare, särskilt när nyfångna data skiljer sig från datalageret. Gartner varnar emellertid igen att avancerad dataanalys kommer att använda datalager och ny data, vilket innebär att dataintegratörer måste:

Förfina nya datatyper för att göra dem lämpliga för analys
Bestäm vilken data som är relevant och vilken datakvalitet som krävs
Bestäm hur du ska aggregera data
Förstå att förädling av data kan ske på andra platser än datalageret

Myt: Datasjöer kommer att ersätta datalageret.

Datasjöer är förvar med olika data, i motsats till datalager där data är i ett strukturerat format. Att skapa en datasjö kräver liten ansträngning i förväg (inget behov av att formatera uppgifterna) jämfört med datalager, varför datasjöar är intressanta.

Gartner betonar att det inte är poängen att ha uppgifterna - att kunna manipulera den infångade informationen för informerat beslut är poängen. Dessutom är det problematiskt att använda (något obevisade) dataljöer för att underlätta beslutsfattande.

"Datalager har redan förmågan att stödja ett brett utbud av användare i en organisation," säger Nick Heudecker, forskningsdirektör på Gartner. "Ledare för informationshantering behöver inte vänta på att insjöar kommer att komma ihåg." (Läs mer om hur du antar big data i 7 saker du måste veta om Big Data innan det antas.)

Big Data Works - Nya datamanipuleringsmetoder kanske inte

Anledningen till att Gartner sa att "största datamyter" istället för "bigdatamyter" blir tydligt efter att ha läst rapporten. Gartner är inte känsligt för big data. Gartner är leery av dem som känner att de nyare metoderna för att manipulera big data är redo för "prime time".