Varför gnista är framtidens Big Data-plattform

Innehåll

Vad är Apache Spark?
Varför gnista är så viktigt över Hadoop
Vad är gnistor unika funktioner?
Varför gnista inte ersätter Hadoop
Vad företag tycker om Spark och Hadoop
Praktiska implementationer
Slutsats

Källa: Snake3d / Dreamstime.com

Hämtmat:

Apache Spark är ett öppet källverktyg för att bearbeta big data som kryper upp på (och på vissa sätt överträffar) Hadoop.

Apache Hadoop har varit grunden för big data-applikationer sedan länge och anses vara den grundläggande dataplattformen för alla stora datarelaterade erbjudanden. Men databas och beräkning i minnet ökar populariteten på grund av snabbare prestanda och snabba resultat. Apache Spark är ett nytt ramverk som använder kapaciteter i minnet för att leverera snabb behandling (nästan 100 gånger snabbare än Hadoop). Så Spark-produkten används alltmer i en värld av big data, och främst för snabbare bearbetning.

Vad är Apache Spark?

Apache Spark är en öppen källkodsram för att bearbeta stora datamängder (big data) med snabbhet och enkelhet. Det är lämpligt för analysapplikationer baserade på big data. Gnist kan användas med en Hadoop-miljö, fristående eller i molnet. Det utvecklades vid University of California och erbjöds senare till Apache Software Foundation. Således tillhör det öppna källkodssamhället och kan vara mycket kostnadseffektivt, vilket ytterligare tillåter amatörutvecklare att arbeta enkelt. (För mer information om Hadoops open source, se Vad är påverkan av öppen källkod på Apache Hadoop ekosystem?)

Det främsta syftet med Spark är att det erbjuder utvecklare en applikationsram som fungerar kring en centrerad datastruktur. Spark är också extremt kraftfullt och har den medfödda förmågan att snabbt bearbeta enorma datamängder på kort tid, vilket ger extremt goda prestanda.Detta gör det mycket snabbare än vad som sägs vara den närmaste konkurrenten Hadoop.

Varför gnista är så viktigt över Hadoop

Apache Spark har alltid varit känt för att trumfa Hadoop i flera funktioner, vilket förmodligen förklarar varför det förblir så viktigt. En av de främsta orsakerna till detta skulle vara att överväga behandlingshastigheten. Som nämnts ovan erbjuder Spark faktiskt ungefär 100 gånger snabbare behandling än Hadoops MapReduce för samma mängd data. Den använder också betydligt färre resurser jämfört med Hadoop, vilket gör det kostnadseffektivt.

En annan viktig aspekt där Spark har överhanden är vad gäller kompatibilitet med en resurschef. Det är känt att Apache Spark kör med Hadoop, precis som MapReduce gör, men den senare är för närvarande bara kompatibel med Hadoop. När det gäller Apache Spark kan det dock fungera med andra resurshanterare som YARN eller Mesos. Datavetare citerar ofta detta som ett av de största områdena där Spark verkligen överträffar Hadoop.

När det kommer till användarvänlighet blir Spark igen mycket bättre än Hadoop. Spark har API: er för flera språk som Scala, Java och Python, förutom att de har Spark SQL. Det är relativt enkelt att skriva användardefinierade funktioner. Det händer också att skryta med ett interaktivt läge för att köra kommandon. Hadoop, å andra sidan, är skriven i Java och har förtjänat rykte för att vara ganska svårt att programmera, även om det har verktyg som hjälper till i processen. (Läs hur Apache Spark hjälper till snabb applikationsutveckling för att lära dig mer om gnistor.)

Vad är gnistor unika funktioner?

Apache Spark har några unika funktioner som verkligen skiljer den från många av sina konkurrenter inom databearbetning. Några av dessa har beskrivits kort nedan.

Du kan inte förbättra dina programmeringsfärdigheter när ingen bryr sig om mjukvarukvalitet.

Spark har också en medfödd förmåga att ladda nödvändig information till sin kärna med hjälp av sina maskininlärningsalgoritmer. Detta tillåter att det är extremt snabbt.

Apache Spark har förmågan att bearbeta grafer eller till och med grafisk information, vilket möjliggör enkel analys med mycket precision.

Apache Spark har MLib, som är ett ramverk som är avsett för strukturerat maskininlärning. Det är också övervägande snabbare i implementering än Hadoop. MLib kan också lösa flera problem, såsom statistisk läsning, dataprovtagning och förutsättningstest, för att nämna några.

Varför gnista inte ersätter Hadoop

Trots att Spark har flera aspekter där det trummar Hadoop ned, finns det fortfarande flera skäl till varför den inte riktigt kan ersätta Hadoop ännu.

Först och främst erbjuder Hadoop helt enkelt en större uppsättning verktyg jämfört med Spark. Det har också flera metoder som är erkända i branschen. Apache Spark är dock fortfarande relativt ung i domänen och kommer att behöva lite tid för att komma sig i nivå med Hadoop.

Hadoops MapReduce har också fastställt vissa industristandarder när det gäller att driva fullfjädrad verksamhet. Å andra sidan tros det fortfarande att Spark inte är helt redo att fungera med fullständig tillförlitlighet. Ofta måste organisationer som använder Spark finjustera den för att göra den redo för sina krav.

Hadoops MapReduce, efter att ha funnits i längre tid än Spark, är också lättare att konfigurera. Detta är dock inte fallet för Spark, med tanke på att det erbjuder en helt ny plattform som inte riktigt har testat grova fläckar.

Vad företag tycker om Spark och Hadoop

Många företag har redan börjat använda Spark för sina databehandlingsbehov, men berättelsen slutar inte där. Det har säkert flera starka aspekter som gör det till en fantastisk databehandlingsplattform. Men det kommer också med sin rättvisa del av nackdelar som behöver fixas.

Det är en branschuppfattning att Apache Spark är här för att stanna och till och med möjligen är framtiden för databehandlingsbehov. Men det måste fortfarande genomgå en hel del utvecklingsarbete och polering som gör att den verkligen kan utnyttja sin potential.

Praktiska implementationer

Apache Spark har varit och anställs fortfarande av många företag som passar deras krav på databehandling. En av de mest framgångsrika implementeringarna genomfördes av Shopify, som var ute efter att välja valbara butiker för affärssamarbete. Däremot fortsatte datalageret med tiden när den ville förstå de produkter som kunderna sålde. Med hjälp av Spark kunde företaget behandla flera miljoner dataposter och sedan behandla 67 miljoner poster på några minuter. Det bestämde också vilka butiker som var berättigade.

Med hjälp av Spark kan Pinterest identifiera utvecklande trender och sedan använda det för att förstå användarnas beteende. Detta möjliggör ytterligare bättre värde i Pinterest-communityn. Spark används också av TripAdvisor, en av världens största webbplatser för reseinformation, för att påskynda sina rekommendationer till besökare.

Slutsats

Man kan inte tvivla på Apache Sparks förmåga, även för närvarande, och den unika uppsättningen funktioner som den ger till bordet. Dess processorkraft och hastighet, tillsammans med dess kompatibilitet, sätter tonen för flera saker som kommer framöver. Men det har också flera områden den behöver förbättra på, om den verkligen ska förverkliga sin fulla potential. Även om Hadoop fortfarande reglerar taket för närvarande, har Apache Spark en ljus framtid framför och anses av många vara den framtida plattformen för databehandlingsbehov.