Apache Pig

Författare: Robert Simon
Skapelsedatum: 16 Juni 2021
Uppdatera Datum: 13 Maj 2024
Anonim
Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn
Video: Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn

Innehåll

Definition - Vad betyder Apache Pig?

Apache Pig är en plattform som används för att analysera stora datamängder. Det består av ett språk på hög nivå för att uttrycka dataanalysprogram tillsammans med infrastrukturen för att utvärdera dessa program. En av de viktigaste egenskaperna hos Pig är att dess struktur svarar på betydande parallellisering.


Pig fungerar på Hadoop-plattformen, skriver data till och läser data från Hadoop Distribuerat filsystem (HDFS) och utför bearbetning med hjälp av ett eller flera MapReduce-jobb. Apache Pig är tillgängligt som öppen källkod.

Apache Pig är också känt som Pig Programming Language eller Hadoop Pig.

En introduktion till Microsoft Azure och Microsoft Cloud | I hela denna guide kommer du att lära dig vad cloud computing handlar om och hur Microsoft Azure kan hjälpa dig att migrera och driva ditt företag från molnet.

Techopedia förklarar Apache Pig

Apache Pig har två delar: Latin Latin and Pig engine. Pig Latin-språket är ett skriptspråk som gör det möjligt för användare att illustrera hur dataflöde från en eller flera ingångar måste läsas och bearbetas och platsen där måste lagras.


Några av de viktigaste egenskaperna hos Pig Latin är följande:

  • Lätt att programmera: Intrikata uppgifter som består av olika sammankopplade datatransformationer kodas tydligt som dataströmssekvenser. Detta gör dem enkla att skriva, förstå och underhålla.
  • Optimeringsmöjligheter: Det sätt på vilket uppgifterna kodas gör att systemet kan optimera automatisk körning. Detta gör att användaren kan uppmärksamma semantik istället för effektivitet.
  • Utökbarhet: Användare får skapa sina egna funktioner för att utföra specialanpassad behandling. Pig-motorn är ansvarig för utförandet av dataflöde skrivet på Pig Latin. Precis som en standardkonstruktion för relationellt databashanteringssystem (RDBMS) består Apache Pig av en parser, optimizer och typkontroll, förutom operatörer som utför databehandling. Gris inkluderar inte transaktioner, en datakatalog eller förmågan att direkt hantera datalagring eller använda exekveringsramen.