Hadoop Analytics: Att kombinera data kräver en källagnostisk strategi

Källa: Agsandrew / Dreamstime.com

Hämtmat:

Källa-agnostiska metoder är idealiska för bearbetning av data för Hadoop-analys.

Att kombinera datakällor i Hadoop är en komplex verksamhet. Några av orsakerna till detta inkluderar:

Anpassade källspecifika skript som kombinerar datakällor är problematiska.
Att använda dataintegration eller datavetenskapliga verktyg ger för mycket osäkerhet.
Att lägga till data från externa källor är nästan omöjligt.

Idag kommer jag att diskutera hur Hadoop-analys förbättras genom källagnostiska tekniker som gör det enkelt att kombinera interna och externa datakällor. Förutom att beskriva hur källa-agnostiska metoder fungerar kommer jag också att täcka varför Hadoop-analyser behöver inbyggd intelligens- och kunskapsöverföringsfunktioner, en förståelse för relationer och dataegenskaper och en skalbar och högpresterande arkitektur.

Källa-agnostiska metoder inkludera en flexibel enhetsupplösningsmodell som gör det möjligt att lägga till nya datakällor med statistiskt sunda, repeterbara datavetenskapsprocesser. Dessa processer utnyttjar algoritmer för att samla in kunskap från data, och utvärdera, analysera den för att bestämma den bästa integrationsstrategin.
Oavsett hur fragmenterad eller ofullständig de ursprungliga källposterna bör Hadoop-analysteknologier vara källagnostiska och kunna förena data utan att ändra eller manipulera källdata. Dessa tekniker bör också skapa enhetsindex baserade på datainnehåll och attribut om individer och hur de existerar i världen. För att uppnå detta måste de förstå datainnehåll, kon, struktur och hur komponenter relaterar till varandra.
Inbyggd expertis inom datavetenskap och dataintegration gör att data kan rengöras, standardiseras och korreleras med en hög grad av noggrannhet och precision. Visualiseringsverktyg och rapporter hjälper analytiker att utvärdera och lära av data, och utföra systeminställning baserat på kunskap från olika steg i processen.
Förstå förhållanden mellan enheter resulterar i mer exakta processer för upplösning av enheter. Eftersom verkliga enheter inte bara är summan av deras attribut, utan också deras kopplingar, bör relationskunskap användas för att upptäcka när poster är desamma. Detta är särskilt viktigt för hantering av hörnfall och big data.
Datakaraktärisering förbättrar analys, upplösning och länkning av data genom att identifiera och tillhandahålla information om datakällor. Det kan hjälpa till att validera innehåll, densitet och distribution av data inom kolumner med strukturerad information. Datakaraktärisering kan också användas för att identifiera och extrahera viktiga enhetsrelaterade data (namn, adress, födelsedatum etc.) från ostrukturerade och halvstrukturerade källor för korrelation med strukturerade källor.
Skalbar, parallell arkitektur utför analyser snabbt även när det stöder hundratals strukturerade, halvstrukturerade och ostrukturerade datakällor och tiotals miljarder poster.

Hadoop förändrar hur världen utför analyser. När ny källagnostisk analys läggs till Hadoop-ekosystem kan organisationer ansluta punkterna mellan många interna och externa datakällor och få insikter som inte var möjliga förut.

Denna artikel publicerades ursprungligen på Novetta.com. Det har vass här med tillstånd. Novetta behåller alla upphovsrätt.