Operativ Hadoop inom nästa generations dataarkitektur

Innehåll

Vad är nästa generations dataarkitektur?
Förväntningar från Hadoop i Con of Next-Generation Architecture
Vilka värden kan Hadoop lägga till nästa generations dataarkitektur?
Förbättrad prestanda som Enterprise Data Architecture
Skillnaden mellan Hadoop och annan teknik
Slutsats

Källa: Romeo1232 / Dreamstime.com

Hämtmat:

Hadoop kommer att vara en nyckelaktör i nästa generations dataarkitektur på grund av dess förmåga att hantera stora mängder data.

Hadoops verktyg börjar gå utöver stor databehandling och analys eftersom branschen kommer att kräva mer av det. Hadoop tillgodoser stadigt olika krav relaterade till företagets dataarkitektur samtidigt som de behåller sina ursprungliga styrkor. Listan över vad Hadoop kan göra och för närvarande gör är ganska lång. Hadoop kan nu behandla enorma volymer transaktionsarbetsbelastningar, en uppgift som tidigare förväntades av traditionell teknik. Framöver finns det många möjligheter för Hadoop i framtiden. Exempelvis kan transaktionssystem baserade på SQL använda en Hadoop SQL-motor och Hadoop kommer också att lägga till många RDBMS-funktioner. Du kan säga att Hadoop blir en hybrid av databehandlings- och analysfunktioner med företagsarkitekturfunktioner.

Vad är nästa generations dataarkitektur?

För att uttrycka det enkelt är nästa generations dataarkitektur en utvecklad form av dataarkitektur. Allt, inklusive datamodeller, datapolicys, regler och standarder som styr hur data samlas in, lagras, arrangeras, analyseras eller bearbetas, integreras, används och dispenseras, har utvecklats under nästa generations dataarkitektur.

Den största skillnaden mellan tidigare dataarkitektur och nästa generations dataarkitektur är den sistnämnda förmågan att samla in, lagra och bearbeta enorma mängder data, även känd som big data, i realtid. Arkitekturen utför alla dessa komplexa uppgifter utan att kompromissa med standarderna för integritet, säkerhet och datahantering.

Nästa generations dataarkitektur står inför många utmaningar. Det är inte lätt att hantera volymen, hastigheten och variationen av big data. Lägg till kraven för att optimera systemets arbetsbelastning, förbättra prestanda, hastighet och noggrannhet och kostnadsminskning. Naturligtvis behövde den föregående dataarkitekturen inte hantera sådana krav.

Så CIO: er och informationsarkitekter vill hitta en lösning som hjälper dem att uppnå sina mål. Operativa Hadoop har varit i fokus under en längre tid i detta läge. Följande avsnitt kommer att diskutera hur operationell Hadoop kan lösa problem.

Förväntningar från Hadoop i Con of Next-Generation Architecture

Företagen är under ökande press för att leverera bättre resultat och effekterna surrar ner till förväntningarna på teknologierna. Så Hadoop förväntas inte längre bara bearbeta data. CIO: er och CTO: er vill ha mer från Hadoop. Nedan visas en lista över förväntningar från Hadoop. Faktum är att Hadoop redan levererat några av dessa förväntningar.

Hadoop förväntas arbeta med transaktionssystem som är baserade på SQL och har möjligheter att skapa, läsa, uppdatera och ta bort. Transaktionssystemen kommer att utnyttja SQL-motorn. Systemen kommer också att ha fullständig överensstämmelse med Portable Operating System Interface (POSIX) och förmågan att bearbeta höga transaktionsvolymer.

Hadoop förväntas stödja funktioner som säkerhetskopiering, feltolerans, återhämtning och katastrofåterställning. För att Hadoop ska utvecklas till ett system med RDBMS-kapacitet måste det vara kompatibelt med befintliga IT-verktyg.

Hadoop arbetar redan med att uppfylla förväntningarna, vilket framgår av vissa utvecklingar. Hadoop kan tillhandahålla realtidsanalys och snabba svar baserat på resurshanteringsstödet från YARN. YARN är ett storskaligt och distribuerat operativsystem för big data applikationer förutom att det är en resurschef. Andra utvecklingar som Apache Storm, distribuerade minnesarkitekturer som Apache Spark, Apache Hive, Drill och MapR-FS (en högpresterande HDFS-ersättning), är kända för att fungera för att erbjuda olika fullständiga databasfunktioner, som säkerhetskopiering, katastrofåterhämtning, feltolerans osv. (Mer information om YARN finns i Vilka är fördelarna med Hadoop 2.0 (YARN) -ramverket?)

Vilka värden kan Hadoop lägga till nästa generations dataarkitektur?

De värden som operativt Hadoop kan lägga till nästa generations dataarkitektur kan ses från två perspektiv: ett, om det uppfyller de förväntningar som beskrivs ovan, och två, om det gör något ytterligare. Nedan anges de viktigaste värdena som operativa Hadoop kan ge.

Hadoop kan nu ge mer skalbarhet och hanterbarhet av data inom sin plattform via HDFS. Och datoperativsystemet har aktiverats via Hadoops YARN-applikationer. Denna strategi representerar en förskjutning i dataarkitektur på en grundläggande nivå. Nu kan Hadoop lagra olika typer av data, såsom transaktionsorienterade databaser, grafdatabaser och dokumentdatabaser, och dessa data kan nås via YARN-applikationerna. Det finns inget behov av att kopiera eller flytta informationen till andra platser.

Förbättrad prestanda som Enterprise Data Architecture

Operational Hadoop är på väg att bli kärnsystemet för företagets dataarkitektur. När Hadoop får mer in i företagets dataarkitektur kommer datasilo att elimineras när raderna mellan dem elimineras. Det kommer att bli snabb förbättring i nästan alla aspekter. Förbättringar kommer att ske i form av mer effektiva filformat, bättre SQL-motorprestanda, förbättrade filsystem och robusthet som kommer att uppfylla behoven i företagets applikationer.

Skillnaden mellan Hadoop och annan teknik

Tidigare var den största skillnaden mellan Hadoop och dataföretagsteknologier Hadoops stora databehandlings-, rapporterings- och analysfunktioner. När operativa Hadoop blir mer och mer en del av företagets dataarkitektur blir skillnaden mellan enheterna allt mer suddig. Således, operationell Hadoop dyker upp som ett överlägset alternativ till befintlig företags dataarkitektur.

Slutsats

Med tanke på förväntningarna och framstegen kommer Hadoop att vara i branschens fokus länge. Men det är vettigt att inte fokusera för mycket på Hadoop och helt enkelt ignorera annan teknik. Detta beror på att andra teknologier kommer att göra framsteg med samma parametrar och till och med köra Hadoop. Det är aldrig bra att ha ett monopol på marknaden. Det är bra att tillverkarna av annan teknik än Hadoop kan vara motiverade att leverera bättre produkter och till och med plug-ins som hjälper Hadoop att förbättra dess prestanda.