De 10 viktigaste Hadoop-villkoren du behöver veta och förstå

Innehåll

Men först en titt på hur Hadoop fungerar
Hadoop Common
Hadoop Distribuerat filsystem (HDFS)
MapReduce
HBase
Bikupa
Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv
Apache Pig
Apache Spark
Apache Cassandra
Ytterligare en resursförhandlare (YARN)
Impala

Källa: Trueffelpix / Dreamstime.com

Hämtmat:

För att verkligen förstå big data måste du förstå lite om Hadoop och språket runt det.

Big data, det iögonfallande namnet på massiva volymer strukturerade, ostrukturerade eller semistrukturerade data, är notoriskt svårt att fånga, lagra, hantera, dela, analysera och visualisera, åtminstone med traditionella databas- och programapplikationer. Det är därför stordatateknologier har potential att hantera och bearbeta enorma datamängder effektivt och effektivt. Och det är Apache Hadoop som tillhandahåller ramverket och tillhörande teknik för att bearbeta stora datamängder över kluster av datorer på ett distribuerat sätt. Så för att verkligen förstå big data måste du förstå lite om Hadoop. Här kan du ta en titt på de översta termerna du kommer att höra när det gäller Hadoop - och vad de menar.

Men först en titt på hur Hadoop fungerar

Innan du går in i Hadoop-ekosystemet måste du förstå två grundläggande saker tydligt. Den första är hur en fil lagras i Hadoop; den andra är hur lagrade data behandlas. All Hadoop-relaterad teknik arbetar främst på dessa två områden och gör den mer användarvänlig. (Få grunderna i hur Hadoop fungerar i hur Hadoop hjälper till att lösa Big Data-problemet.)

Nu vidare till villkoren.

Hadoop Common

Hadoop-ramverket har olika moduler för olika funktioner och dessa moduler kan interagera med varandra av olika skäl. Hadoop Common kan definieras som ett gemensamt verktygsbibliotek för att stödja dessa moduler i Hadoop ekosystemet. Dessa verktyg är i grunden Java-baserade, arkiverade (JAR-filer). Dessa verktyg används främst av programmerare och utvecklare under utvecklingstiden.

Hadoop Distribuerat filsystem (HDFS)

Hadoop Distribution File System (HDFS) är ett delprojekt av Apache Hadoop under Apache Software Foundation. Detta är ryggraden i lagring i Hadoop-ramverket. Det är ett distribuerat, skalbart och feltolerant filsystem som sträcker sig över flera hårdvaruhårdvara som kallas Hadoop-klustret. Målet med HDFS är att lagra en enorm mängd data pålitligt med hög kapacitetsåtkomst till applikationsdata. HDFS följer master / slavarkitektur, där befälhavaren kallas NameNode och slavarna kallas DataNodes.

MapReduce

Hadoop MapReduce är också ett delprojekt av Apache Software Foundation. MapReduce är faktiskt ett programvara som är rent skrivet i Java. Dess primära mål är att behandla stora datasätt på en distribuerad miljö (bestående av varuhårdvara) på ett helt parallellt sätt. Ramverket hanterar alla aktiviteter som jobbschemaläggning, övervakning, exekvering och exekvering (vid misslyckade uppgifter).

HBase

Apache HBase är känd som Hadoop-databasen. Det är en kolumnerad, distribuerad och skalbar stordatabutik. Det är också känt som en typ av NoSQL-databas som inte är ett relationsdatabashanteringssystem. HBase-applikationer är också skrivna i Java, byggda ovanpå Hadoop och körs på HDFS. HBase används när du behöver läsa / skriva i realtid och slumpmässig åtkomst till big data. HBase är modellerad baserat på Googles BigTable-koncept.

Bikupa

Apache Hive är ett program för datalager med öppen källkod. Hive utvecklades ursprungligen av innan den kom under Apache Software Foundation och blev öppen källkod. Det underlättar hantering och fråga av stora datamängder på distribuerad Hadoop-kompatibel lagring. Hive utför alla sina aktiviteter genom att använda ett SQL-liknande språk som kallas HiveQL. (Läs mer i en kort introduktion till Apache Hive och Pig.)

Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv

Du kan inte förbättra dina programmeringsfärdigheter när ingen bryr sig om mjukvarukvalitet.

Apache Pig

Gris initierades ursprungligen av Yahoo för att utveckla och utföra MapReduce-jobb på en stor mängd distribuerad data. Nu har det blivit ett open source-projekt under Apache Software Foundation. Apache Pig kan definieras som en plattform för att analysera mycket stora datamängder på ett effektivt sätt. Infrastrukturlager för svin producerar sekvenser av MapReduce-jobb för att utföra den faktiska bearbetningen. Pigs språklager kallas Pig Latin och det tillhandahåller SQL-liknande funktioner för att utföra frågor på distribuerade datamängder.

Apache Spark

Spark utvecklades ursprungligen av AMPLab vid UC Berkeley. Det blev ett Apache-projekt på toppnivå i februari 2014. Apache Spark kan definieras som en öppen källkod, generellt, kluster-datoramverk som gör dataanalys mycket snabbare. Det är byggt ovanpå Hadoop Distribuerat filsystem men det är inte länkat till MapReduce-ramverket. Gnistornas prestanda är mycket snabbare jämfört med MapReduce. Det ger API på hög nivå i Scala, Python och Java.

Apache Cassandra

Apache Cassandra är en annan open source NoSQL-databas. Cassandra används ofta för att hantera stora volymer strukturerade, semistrukturerade och ostrukturerade data som sträcker sig över flera datacenter och molnlagring. Cassandra är designad baserad på en "masterless" arkitektur, vilket betyder att den inte stöder master / slavmodellen. I denna arkitektur är alla noder lika och data distribueras automatiskt och lika över alla noder. De viktigaste funktionerna hos Cassandras är kontinuerlig tillgänglighet, linjär skalbarhet, inbyggd / anpassningsbar replikering, ingen enda punkt för misslyckande och enkel drift.

Ytterligare en resursförhandlare (YARN)

Ytterligare en resursförhandlare (YARN) kallas också MapReduce 2.0, men den faller faktiskt under Hadoop 2.0. YARN kan definieras som ett jobbschemaläggnings- och resurshanteringsram. Grundtanken med YARN är att ersätta JobTracker-funktionerna med två separata demoner som ansvarar för resurshantering och schemaläggning / övervakning. I denna nya ram kommer det att finnas en global ResourceManager (RM) och en applikationsspecifik master som kallas ApplicationMaster (AM). Den globala ResourceManager (RM) och NodeManager (per nodeslav) utgör den faktiska datorberäkningsramen. Befintliga MapReduce v1-applikationer kan också köras på YARN, men dessa applikationer måste kompileras igen med Hadoop2.x-burkar.

Impala

Impala kan definieras som en SQL-frågeformotor med massiv parallellbearbetning (MPP). Det körs naturligt enligt Apache Hadoop-ramverket. Impala är designad som en del av Hadoop-ekosystemet. Den delar samma flexibla filsystem (HDFS), metadata, resurshantering och säkerhetsramar som används av andra Hadoop-ekosystemkomponenter. Den viktigaste punkten är att notera att Impala är mycket snabbare i frågeställning jämfört med Hive. Men vi bör också komma ihåg att Impala är avsett för fråga / analys på en liten uppsättning data, och är främst utformad som ett analysverktyg som fungerar på bearbetade och strukturerade data.

Hadoop är ett viktigt ämne inom IT, men det finns de som är skeptiska till dess långsiktiga livskraft. Läs mer i Vad är Hadoop? A Cynics Theory.