Kan det någonsin finnas för mycket data i big data?

Innehåll

F:

A:

Svaret på frågan är ett rungande JA. Det kan absolut finnas för mycket data i ett big data-projekt.

Det finns många sätt på vilket detta kan hända, och olika skäl till att proffsen behöver begränsa och sammanställa data på ett antal sätt för att få rätt resultat. (Läs 10 stora myter om Big Data.)

I allmänhet talar experter om att differentiera "signalen" från "bruset" i en modell. Med andra ord, i ett hav av big data blir relevant insynsinformation svår att rikta in sig på. I vissa fall letar du efter en nål i en höstack.

Anta till exempel att ett företag försöker använda big data för att generera specifik insikter om ett segment av en kundbas och deras inköp under en viss tidsram. (Läs Vad gör big data?)

Att ta in en enorm mängd datatillgångar kan resultera i intag av slumpmässiga data som inte är relevanta, eller det kan till och med ge en förspänning som snedvrider uppgifterna i en eller annan riktning.

Det bromsar också processen dramatiskt, eftersom datasystem måste brottas med större och större datamängder.

I så många olika typer av projekt är det mycket viktigt för datatekniker att sammanställa data till begränsade och specifika datamängder - i fallet ovan skulle det bara vara uppgifterna för det segment av kunder som studeras, bara data för den tiden ram som studeras, och en metod som luker bort ytterligare identifierare eller bakgrundsinformation som kan förvirra saker eller bromsa system. (ReadJob-roll: Data Engineer.)

För mer kan vi titta på hur detta fungerar i gränsen till maskininlärning. (Läs maskininlärning 101.)

Maskininlärningsexperter talar om något som kallas "övermontering" där en alltför komplex modell leder till mindre effektiva resultat när maskininlärningsprogrammet släpps loss på ny produktionsdata.

Överpassning händer när en komplex uppsättning datapunkter matchar en inledande träningsuppsättning för bra och inte tillåter att programmet enkelt anpassar sig till nya data.

Tekniskt sett orsakas övermontering inte av att det finns för många dataprover, utan av kröningen av för många datapunkter. Men du kan hävda att att ha för mycket data också kan vara en bidragande faktor till denna typ av problem. Att hantera förbannelsen av dimensionalitet innebär några av samma tekniker som gjordes i tidigare big data-projekt då proffs försökte fastställa vad de matade IT-system.

Sammanfattningen är att big data kan vara oerhört användbara för företag, eller att det kan bli en stor utmaning. En aspekt av detta är om företaget har rätt data. Experter vet att det inte är tillrådligt att helt enkelt dumpa alla datatillgångar i en behållare och komma med insikter på det sättet - i nya molnbaserade och sofistikerade datasystem är det ett försök att kontrollera och hantera och sammanställa data för att bli mer exakt och effektiv användning av datatillgångar.