Kudu: En spelväxlare i Hadoop ekosystem?

Innehåll

Vad är Kudu?
Vad är Kudus nuvarande status?
Hur kan Kudu komplettera HDFS / HBase?
Funktioner i Kudu-ramverket
Hur kan Kudu ändra Hadoop-ekosystemet?
Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv
Slutsats

Källa: Agsandrew / Dreamstime.com

Hämtmat:

Kudu är ett öppen källkodsprojekt som hjälper till att hantera lagring mer effektivt.

Kudu är ett nytt open-source-projekt som ger uppdaterbar lagring. Det är ett komplement till HDFS / HBase, som ger sekventiell och skrivskyddad lagring. Kudu är mer lämpad för snabb analys av snabbdata, vilket för närvarande är efterfrågan på företag. Så Kudu är inte bara ytterligare ett Hadoop-ekosystemprojekt utan har snarare potential att förändra marknaden. (Mer information om Hadoop finns i De 10 viktigaste Hadoop-villkoren du behöver veta och förstå.)

Vad är Kudu?

Kudu är en speciell typ av lagringssystem som lagrar strukturerade data i form av tabeller. Varje tabell har antal kolumner som är fördefinierade. Var och en av dem har en primär nyckel som faktiskt är en grupp med en eller flera kolumner i tabellen. Den här primära nyckeln är gjord för att lägga till en begränsning och säkra kolumnerna, och även fungera som ett index, vilket möjliggör enkel uppdatering och radering. Dessa tabeller är en serie datadelsuppsättningar som kallas tabletter.

Vad är Kudus nuvarande status?

Kudu är väldigt välutvecklad och är redan kopplad till många funktioner. Det kommer emellertid fortfarande att behöva polera, vilket kan göras lättare om användarna föreslår och gör några ändringar.

Kudu är helt öppen källkod och har Apache Software License 2.0. Det är också avsett att skickas till Apache, så att det kan utvecklas som ett Apache Inkubator-projekt. Detta möjliggör för dess utveckling att utvecklas ännu snabbare och ytterligare öka sin publik. Efter en viss tid kommer Kudus utveckling att ske offentligt och öppet. Många företag som AtScale, Xiaomi, Intel och Splice Machine har gått samman för att bidra till utvecklingen av Kudu. Kudu har också ett stort samhälle där ett stort antal publik redan tillhandahåller sina förslag och bidrag. Så det är människorna som driver Kudus utveckling framåt.

Hur kan Kudu komplettera HDFS / HBase?

Kudu är inte tänkt att ersätta HDFS / HBase. Det är faktiskt utformat för att stödja både HBase och HFDS och kör tillsammans med dem för att öka deras funktioner. Detta beror på att HBase och HDFS fortfarande har många funktioner som gör dem mer kraftfulla än Kudu på vissa maskiner. Sammantaget kommer sådana maskiner att få mer fördelar av dessa system.

Funktioner i Kudu-ramverket

Huvudfunktionerna i Kudu-ramverket är följande:

Extremt snabba genomsökningar av tabellens kolumner - De bästa dataformaten som Parkett och ORCFile behöver de bästa skanningsförfarandena, vilket Kudu hanterar perfekt. Sådana format behöver snabba genomsökningar som endast kan uppstå när kolumndata är korrekt kodade.
Prestandernas tillförlitlighet - Kudu-ramverket ökar Hadoops totala tillförlitlighet genom att stänga många av de kryphål och luckor som finns i Hadoop.
Enkel integration med Hadoop - Kudu kan enkelt integreras med Hadoop och dess olika komponenter för mer effektivitet.
Helt öppen källkod - Kudu är ett öppet källkodssystem med Apache 2.0-licensen. Den har ett stort samhälle av utvecklare från olika företag och bakgrunder som uppdaterar det regelbundet och ger förslag på ändringar.

Hur kan Kudu ändra Hadoop-ekosystemet?

Kudu byggdes för att passa in i Hadoops ekosystem och förbättra dess funktioner. Det kan också integreras med några av Hadoops nyckelkomponenter som MapReduce, HBase och HDFS. MapReduce-jobb kan antingen tillhandahålla data eller ta data från Kudu-tabellerna. Dessa funktioner kan också användas i Spark. Ett speciellt lager gör vissa gnistkomponenter som Spark SQL och DataFrame tillgängliga för Kudu. Även om Kudu inte har utvecklats så mycket att det ersätter dessa funktioner, beräknas det att det efter några år kommer att utvecklas tillräckligt för att göra det. Fram till dess är integrationen mellan Hadoop och Kudu verkligen mycket användbar och kan fylla i de stora luckorna i Hadoops ekosystem. (För mer information om Apache Spark, se hur Apache Spark hjälper till snabb applikationsutveckling.)

Kudu kan implementeras på olika platser. Några exempel på sådana platser ges nedan:

Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv

Du kan inte förbättra dina programmeringsfärdigheter när ingen bryr sig om mjukvarukvalitet.

Streaming av ingångar i nästan realtid - På platser där input måste tas emot ASAP kan Kudu göra ett anmärkningsvärt jobb. Ett exempel på en sådan plats är i företag, där stora mängder dynamisk data översvämmar in från olika källor, och måste göras tillgängliga snabbt i realtid.
Tidsserie-applikationer med olika åtkomstmönster - Kudu är perfekt för tidsseriebaserade applikationer eftersom det är enklare att ställa in tabeller och skanna dem med dem. Ett exempel på sådan användning är i varuhus, där gamla data måste hittas snabbt och bearbetas för att förutsäga framtida popularitet för produkter.
Äldre system - Många företag som hämtar data från olika källor och lagrar dem på olika arbetsstationer kommer att känna sig hemma med Kudu. Kudu är extremt snabb och kan effektivt integreras med Impala för att bearbeta data på alla maskiner.
Predictive modellering - Data forskare som vill ha en bra plattform för modellering kan använda Kudu. Kudu kan lära sig av varje uppsättning data som matas in i den. Forskaren kan köra och köra modellen upprepade gånger för att se vad som händer.

Slutsats

Trots att Kudu fortfarande är i utvecklingsstadiet har den tillräckligt med potential att vara ett bra tillägg för standard Hadoop-komponenter som HDFS och HBase. Det har tillräckligt med potential att helt ändra Hadoop-ekosystemet genom att fylla i alla luckor och lägga till några fler funktioner. Det är också mycket snabbt och kraftfullt och kan hjälpa till att snabbt analysera och lagra stora datatabeller. Det finns dock fortfarande lite arbete kvar för att det ska kunna användas mer effektivt.