Apache Kudu

Författare: Laura McKinney
Skapelsedatum: 1 April 2021
Uppdatera Datum: 14 Maj 2024
Anonim
Intro to Apache Kudu by Asim Jalis, Galvanize
Video: Intro to Apache Kudu by Asim Jalis, Galvanize

Innehåll

Definition - Vad betyder Apache Kudu?

Apache Kudu är medlem i det öppna källkodssystemet Apache Hadoop. Det är en open source-lagringsmotor avsedd för strukturerad data som stöder slumpmässig åtkomst med låg latens tillsammans med effektiva analytiska åtkomstmönster. Det designades och implementerades för att överbrygga klyftan mellan det mycket använda Hadoop Distribuerade filsystemet (HDFS) och HBase NoSQL-databas. Även om dessa system fortfarande kan vara fördelaktiga, kan Apache Kudu tillgodose många vanliga arbetsbelastningar eftersom det dramatiskt kan förenkla deras arkitektur.


En introduktion till Microsoft Azure och Microsoft Cloud | I hela denna guide kommer du att lära dig vad cloud computing handlar om och hur Microsoft Azure kan hjälpa dig att migrera och driva ditt företag från molnet.

Techopedia förklarar Apache Kudu

Apache Kudu utvecklades främst som ett projekt på Cloudera. De flesta bidrag hittills har varit av utvecklare anställda av Cloudera. Under lanseringen inkluderades endast bekvämlighetsbinarier i Clouderas förvar, men det antog källsläppningsprocessen för Apache Software Foundation (ASF) efter att ha anslutit sig till inkubatorn. Det är specifikt utformat för användningsfall som kräver snabb analys av snabbdata. Den var konstruerad för att dra nytta av nästa generations hårdvara och i minnet. Det sänker frågestatensen betydligt för Apache Impala och Apache Spark. Den distribuerar data genom kolumnerande lagringsmotorer eller genom horisontell partitionering och replikerar sedan varje partition med Raft-konsensus, vilket ger låg genomsnittlig tid till återhämtning och låga svansfördröjningar.


Även om Kudu är en produkt designad inom Apache Hadoop-ekosystemet, stöder den också integration med andra dataanalysprojekt både in och ut ur ASF.

Apache Kudu visar sig vara effektiv eftersom den kan behandla analytiska arbetsbelastningar i realtid över ett enda lagringslager, vilket ger arkitekterna flexibilitet att ta itu med ett större antal användningsfall utan exotiska lösningar.