Hur kan SQL på Hadoop hjälpa till med Big Data-analys?

Innehåll

Definition av SQL på Hadoop
Hur fungerar SQL på Hadoop?
De bästa fördelarna med SQL på Hadoop
Fler människor kan nu komma åt Hadoop
Analysera Big Data med Hadoop är nu enklare
Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv
Ett annat perspektiv på SQL på Hadoop
Slutsats

Källa: Maciek905 / Dreamstime.com

Hämtmat:

SQL on Hadoop kombinerar dessa två metoder för datahantering för att bilda ett nytt verktyg för dataanalys.

SQL on Hadoop är en grupp av analytiska applikationsverktyg som kombinerar SQL-stilfrågor och bearbetning av data med de senaste Hadoop-dataram-elementen. Framväxten av SQL på Hadoop är en viktig utveckling för bearbetning av big data eftersom det gör det möjligt för bredare grupper av människor att framgångsrikt arbeta med Hadoop-databehandlingsramen genom att köra SQL-frågor på de enorma volymerna av big data som Hadoop bearbetar. Självklart var Hadoop-ramverket tidigare inte lika lättillgängligt för människor, särskilt när det gäller dess frågefunktioner. Baserat på utvecklingen har flera verktyg varit i arbeten som lovar att förbättra produktiviteten för företag när det gäller bearbetning och analys av big data med kvalitet och snabbhet. Det finns inte heller något behov av att investera mycket i att lära sig verktyget, som traditionell kunskap om SQL borde göra.

Definition av SQL på Hadoop

SQL on Hadoop är en grupp applikationer som låter dig köra SQL-stilfrågor på big data värd inom Hadoop databehandlingsram. Uppenbarligen har datafråga, hämtning och analys blivit enklare med tillägg av SQL på Hadoop. Eftersom SQL ursprungligen var designad för relationsdatabaser, måste den modifieras enligt Hadoop 1-modellen som innehåller MapReduce och Hadoop Distribuerad filsystem (HDFS), och Hadoop 2-modellen som inte har MapReduce och HDFS.

Ett av de tidigaste ansträngningarna att kombinera SQL med Hadoop resulterade i skapandet av Hive-datalageret med HiveQL-programvaran som kan översätta SQL-stilfrågor till MapReduce-jobb. Därefter utvecklades flera applikationer som kunde göra liknande jobb. Framstående bland de senare verktygen är Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) och Tez (Hive on Tez).

Hur fungerar SQL på Hadoop?

SQL på Hadoop fungerar med Hadoop på följande sätt:

Anslutare i Hadoop-miljön översätter SQL-frågan till ett MapReduce-format så att Hadoop förstår frågan.
Pushdown-system kör SQL-frågan inom Hadoop-klusterna.
System delar upp den stora volymen SQL-frågor mellan MapReduce-HDFS-kluster beroende på arbetsbelastningen i klustren.

Det verkar som att SQL-frågan inte ändrar dess natur; det är Hadoop som anpassar frågan till ett format som den förstår.

De bästa fördelarna med SQL på Hadoop

Som redan nämnts är SQL på Hadoop en viktig utveckling när det gäller att göra stordataanalys tillgänglig för fler människor och göra dataanalys enklare och snabbare. Det råder ingen tvekan om att Hadoop-dataramverket har varit ett bra verktyg för big data-analys, men det är fortfarande endast tillgängligt av en begränsad grupp människor, inte bara på grund av de enorma ansträngningarna som krävs för att lära sig dess unika arkitektur, utan också för att det har kompatibilitetsproblem med annan teknik. SQL på Hadoop lovar att ta itu med dessa problem.

Fler människor kan nu komma åt Hadoop

Det verkar som att SQL på Hadoop har gjort Hadoop mer jämlikare i den meningen att bredare grupper av människor nu kan använda Hadoop för att bearbeta och analysera data. Tidigare, för att använda Hadoop, behövde du ha kunskap om Hadoop-arkitekturen - MapReduce, Hadoop Distribuerad filsystem eller HBase. Nu kan du ansluta nästan alla analys- eller rapporteringsverktyg och komma åt och analysera data.Tack vare SQL på Hadoop, ett antal SQL på Hadoop-motorer som Cloudera Impala, Concurrent Lingual, Hadapt, CitusDB, InfiniDB, MammothDB, MemSQL, Pivotal HAWQ, Apache Drill, ScleraDB, Progress DataDirect, Simba och Splice Machine är nu kommersiellt tillgängliga för användning med big data. Uppenbarligen har detta öppnat Hadoop för en bredare publik som nu kan förvänta sig att öka avkastningen på investeringar i big data.

Analysera Big Data med Hadoop är nu enklare

Nu behöver du bara köra den gamla gamla SQL-frågan på big data för att hämta och analysera data. SQL har utvecklats från att bara vara ett relationsdatabasverktyg till ett big data-analysverktyg, vilket verkligen är en betydande förändring. Du behöver inte oroa dig för hur Hadoop bearbetar frågorna - det har sitt eget sätt att tolka SQL-frågorna och ge dig resultaten. Experter tror att även om Hadoop Distribuerade filsystem har parallella bearbetningsvarukluster för big data, kan det förbättra dess bearbetningsmöjligheter om det fungerar med SQL-stil interaktiv frågning. Innan HDFS kombinerades med SQL skulle det ta lång tid att bearbeta data med HDFS och uppgiften krävde specialiserade datavetare. Och frågorna var inte interaktiva. Med Apache Tez-ramverket, som innefattar Spark-analysmotorn och den interaktiva frågeställaren Stinger för Hive-datalageret, har dessa problem åtgärdats. Enligt Anu Jain, koncernchef för strategi och arkitektur hos detaljhandlaren Target Corporation, ”är det mycket viktigt för oss att se till att vi ger användarna interaktiv frågeställning. Med Tez kan vi erbjuda verksamheten den kapaciteten. ”

Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv

Du kan inte förbättra dina programmeringsfärdigheter när ingen bryr sig om mjukvarukvalitet.

Populariteten för interaktiv analys har ökat bland Hadoop-användare, vilket en undersökning från Gartner avslöjade. Enligt undersökningen använder 32% av de svarande tredjepartsgränssnitt med HDFS eller HBase, 27% använder självskapade frågor via Hive, medan 23% använder Hadoop distributionsspecifika verktyg som Cloudera Impala och Pivotal HAWQ.

Ett annat perspektiv på SQL på Hadoop

Även om det verkar som att SQL på Hadoop kommer att lösa en hel del problem som vi har med Hadoop, finns det en annan åsikt som tror att SQL kan ha många problem, särskilt när de kombineras med Hadoop. Enligt denna uppfattning är SQL kanske inte så effektivt som ett analytiskt verktyg när det gäller big data. Enligt Hadoop Summit-användarpanelisten John Williams är SQL kanske inte det bästa analysverktyget för att arbeta med big data. Enligt Williams, som är senior vice president för plattformsoperationer av TrueCar, som erbjuder användare en bilköpplattform online, är "SQL-körningstid på en stor datamängd långsam. Samtidigt blir Hadoop på SQL snabbare med saker som YARN och Tez. "

Och det är inte det enda problemet med SQL. Det finns många overhead-uppgifter som datastudier, schematankning, indexering och frågeställning och normalisering som du måste ta hand om när du kombinerar SQL med Hadoop, och du kanske spenderar mycket tid och ansträngning. Efter all den ansträngningen finns det ingen garanti för att du har åstadkommit något permanent. Om något, med applikationsändringarna, kan du behöva göra om det du redan har gjort. I stället för SQL, bör stordatafokuserad utveckling göras baserat på Java och Python eftersom dessa språk är bättre lämpade för ostrukturerad databehandling.

Slutsats

Juryn är fortfarande ute på om SQL på Hadoop är svaret på de problem som människor möter med Hadoop. Men helt klart, branschen behöver ett bättre alternativ till Hadoops egna dataförfrågningsmöjligheter, och det alternativet måste vara interaktivt. SQL på Hadoop-verktyg ger interaktiv analys, vilket är användbart. Företag vill inte slösa bort tid på att försöka få mening ur komplicerad, tidskrävande analys. För närvarande tycker företag att SQL på Hadoop-verktyg är mycket användbara.