Vilka är fördelarna med Hadoop 2.0 (YARN) -ramverket?

Författare: Roger Morrison
Skapelsedatum: 18 September 2021
Uppdatera Datum: 7 Maj 2024
Anonim
Vilka är fördelarna med Hadoop 2.0 (YARN) -ramverket? - Teknologi
Vilka är fördelarna med Hadoop 2.0 (YARN) -ramverket? - Teknologi

Innehåll


Källa: Jim Hughes / Dreamstime.com

Hämtmat:

YARN är en betydande förbättring jämfört med Hadoop 1.0-ramverket. Här undersöker vi några av de fördelar det har jämfört med föregångaren.

Sedan begreppet big data introducerades har det gått igenom flera utvecklingsfaser. Hadoop introducerades 2005 med några inledande funktioner såsom MapReduce-bearbetningsmotorn som tillät storskalig databehandlingsbörda som distribuerats i kluster. Hadoop själv har upplevt många förändringar och utvecklat avancerade ramar och metoder.

YARN är en kärnkomponent i Hadoop 2.0. Det hanterar i princip resurserna i en klustermiljö. YARN-mäklaren interagerar med beräkningsresurserna (på applikationens vägnar) och tilldelar resurser till varje applikation baserat på olika filterkriterier.

I den här artikeln kommer vi att titta på de bästa fördelarna med YARN jämfört med Hadoop 1.0.


Vad är YARN-ramverket?

Yet ENnother ReSource Negotiator är en kärnkomponent i Hadoop 2.0, som hanterar resurser i en grupperad miljö. Hadoop YARN-ramverket är en avancerad version av Hadoop 1.0 som ger förbättrad prestanda, vilket är fördelaktigt för Hadoop-ekosystemet och hela teknologin som är kopplad till det. Nu när vi är lite mer bekanta med YARN, låt oss titta närmare på Hadoop 1.0 och YARN.

Begränsningar av Hadoop 1.0-ramverket

För att förstå fördelarna med YARN-ramverket är det mycket viktigt att förstå hur Hadoop 1.0 fungerar och vilka begränsningar som finns i detta ramverk.

Det är här rollen som JobTracker kommer in. Den hanterar både klusterresurserna och bestämmer MapReduce-jobbet. I ett nötskal planerar och reserverar JobTracker uppgifterna, och konfigurerar och övervakar varje körningsuppgift. Om en uppgift misslyckas, omfördelas den en ny plats för att uppgiften ska starta igen. När en uppgift är klar släpper JobTracker facket för andra uppgifter och rengör de tillfälliga resurserna.


Större nackdelar med ovanstående tillvägagångssätt:

  • Tillgänglighet - JobTracker är den enda tillgänglighetspunkten i Hadoop 1.0. Detta innebär att om JobTracker misslyckas kommer alla uppgifter att startas om som standard.
  • Begränsad skalbarhet - Eftersom JobTracker utför flera uppgifter och körs på en enda maskin används inte de andra tillgängliga maskinerna. följaktligen, vilket resulterar i begränsad skalbarhet.
  • Resursanvändning - I ovanstående tillvägagångssätt är kartplatserna och minska platserna fördefinierade. Det kan hända att en av kortplatserna är fulla men de andra maskinplatserna är tomma. Eftersom de tomma spåren är reserverade kommer de att sitta i viloläge istället för att kompromissa med hela slots. Detta kan orsaka problem med resursanvändning.
  • Köra applikationer som inte är MapReduce - JobTracker är ett program som är byggt för MapReduce-ramverket. Problemet uppstår när en applikation som inte är MapReduce försöker köra inom detta ramverk. Applikationen måste överensstämma med MapReduce-ramprogrammeringen för att kunna köras framgångsrikt. Några av de vanliga frågorna på grund av detta inkluderar problem med:
    • Ad-hoc-fråga
    • Realtidsanalys
    • passerar tillvägagångssätt
  • Fel i kaskad - En av de viktigaste problemen i detta ramverk inträffar när antalet noder är större än 4000. I ett sådant scenario inträffar ett kaskadfel, vilket resulterar i en försämring av hela klustret.

Dessa är några av de största begränsningarna som man möter när man arbetar med denna ram. Det finns några andra mindre begränsningar som inte nämns. YARN-ramverket infördes för att övervinna dessa begränsningar.

Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv

Du kan inte förbättra dina programmeringsfärdigheter när ingen bryr sig om mjukvarukvalitet.

YARN Framework och dess fördelar

YARN-ramverket, som introducerades i Hadoop 2.0, är ​​tänkt att dela ansvaret för MapReduce och ta hand om klusterhanteringsuppgiften. Detta gör att MapReduce endast kan utföra databehandling och därmed effektivisera processen.

YARN tar med sig begreppet central resurshantering. Detta gör att flera applikationer kan köras på Hadoop och delar en gemensam resurshantering.

Några av de viktigaste komponenterna i YARN-ramverket är:

  • ResourceManager - ResourceManager-komponenten är förhandlaren i ett kluster för alla resurser som finns i det klustret. Dessutom klassificeras denna komponent i en applikationshanterare som ansvarar för att hantera användarjobb. Från Hadoop 2.0 kommer alla MapReduce-jobb att betraktas som en applikation.
  • ApplicationMaster - Denna komponent är platsen där ett jobb eller en applikation finns. Den hanterar också alla MapReduce-jobb och avslutas efter att jobbet har slutförts.
  • NodeManager - Nodehanteraren komponent fungerar som servern för jobbhistorik. Det ansvarar för att säkra information om de slutförda jobb. Det håller också reda på användarnas jobb tillsammans med deras arbetsflöde för en viss nod.

Tänk på att YARN-ramverket har olika komponenter för att hantera de olika uppgifterna, låt oss se hur det räknar begränsningarna i Hadoop 1.0.

  • Bättre resursutnyttjande - YARN-ramverket har inga fasta platser för uppgifter. Det tillhandahåller en central resurshanterare som låter dig dela flera applikationer genom en gemensam resurs.
  • Köra applikationer som inte är MapReduce - I YARN separeras schemaläggnings- och resurshanteringsfunktionerna från databehandlingskomponenten. Detta gör att Hadoop kan köra olika typer av applikationer som inte överensstämmer med programmeringen av Hadoop-ramverket. Hadoop-kluster kan nu köra oberoende interaktiva frågor och utföra bättre realtidsanalys.
  • Bakåtkompatibilitet - YARN kommer som ett bakåtkompatibelt ramverk, vilket innebär att alla befintliga jobb i MapReduce kan utföras i Hadoop 2.0.
  • JobTracker existerar inte längre - De två huvudrollerna för JobTracker var resurshantering och jobbplanering. Med införandet av YARN-ramverket är dessa nu uppdelade i två separata komponenter, nämligen:
    • NodeManager
    • Resource

Slutsats

Införandet av YARN-ramverket har gjort det lättare att bygga applikationer för Hadoop-utvecklare. Nu krävs inte längre applikationerna att implementeras med tredjepartsverktyg. YARN är en enorm förändring som gör att användare kan överväga Hadoop 2.0 för att skapa applikationer och manipulera data mer effektivt. Med tiden kommer det att utvecklas ytterligare för att förbättra Hadoops användbarhet. För tillfället kommer YARN-ramverket att spela en avgörande roll för att hantera de befintliga problemen och skapa en problemfri miljö som är mer mångsidig än den tidigare versionen av MapReduce-modellen.