Hive vs Impala - 20 hyödyllisintä asiaa, jotka sinun pitäisi tietää

Ero pesän ja Impalan välillä

Hive on Jeffin Facebook-tiimin kehittämä APACHE HADOOP -sovelluksen päälle rakennettu tietovarasto-ohjelmistoprojekti, jonka nykyinen vakaa versio 2.3.0 on julkaistu. Sitä käytetään suurten tietojen yhteenvetoon ja se tekee kyselyistä ja analysoinnista helppoa. Apache Hive on tehokas standardi SQL-in Hadoopille. Impala on rinnakkaisprosessoiva SQL-kyselymoottori, joka toimii Apache Hadoopissa ja jota käytetään HBaseen (Hadoop-tietokanta) ja Hadoop-hajautettuun tiedostojärjestelmään tallennettujen tietojen käsittelemiseen. Impala on avoimen lähdekoodin tuote rinnakkaiskäsittelyn (MPP) SQL-kyselymoottorille, joka on tallennettu Apache Hadoopilla toimivaan paikallisiin järjestelmiin. Apache Hive ja Impala ovat molemmat tärkeät osat Hadoop-järjestelmässä.

Joten tutkitaan yksityiskohtaisesti sekä Hiveä että Impalaa:

PESÄ

Apache Hive auttaa Hadoop-tiedostojärjestelmään (HDFS) ja muihin yhteensopiviin tiedostojärjestelmiin tallennetun valtavan aineiston analysoinnissa.
Hive QL - Hadoop-klusteriin tallennettujen tietojen kyselyä varten.
Hyödyntää Hadoopin skaalautuvuutta käännöksellä .
Pesä ei ole täydellinen tietokanta .
Se ei tarjoa tietuetason päivityksiä .
Hadoop on panosorientoitu järjestelmä .
Pesän kyselyillä on korkea viive, johtuen MapReducesta .
Hive ei tarjoa ominaisuuksia Se on lähellä OLAP: ta .
Soveltuu parhaiten tietovarasto-sovelluksiin .
Kyselyn suorittaminen MapReducen kautta .
kyselykieltä voidaan käyttää mukautettujen skalaarifunktioiden (UDF), aggregaatioiden (UDAF) ja taulukkojen funktioiden (UDTF) kanssa .
Hive tarjoaa myös indeksoinnin nopeuttamiseksi, hakemistotyyppi mukaan lukien tiivistys ja bittikartta-indeksi alkaen 0, 10, lisää hakemistotyyppejä suunnitellaan.
Hive-tuetut tallennustyypit ovat RCfile, HBase, ORC ja Plain text .
SQL-tyyppiset kyselyt (Hive QL), jotka muunnetaan implisiittisesti MapReduce-, Tez- tai Spark-töiksi .
Oletuksena Hive tallentaa metatiedot upotettuun Apache Derby-tietokantaan .

IMPALA

Impala on hakukone, joka toimii Hadoopilla . Se julkinen beetatestijakelu julkistettiin lokakuussa 2012, ja se tuli yleisesti saataville toukokuussa 2013.
Se tukee HDFS Apache HBase -tallennustilaa ja Amazon S3: ta .
Lukee Hadoop-tiedostomuotoja, mukaan lukien teksti-, parketti-, Avro-, RCFile-, LZO- ja sekvenssitiedostot .
Tukee Hadoop Security (Kerberos-todennusta) .
Käyttää metatietoja, ODBC-ohjainta ja SQL-syntaksia Apache Hiveltä .
Se tukee useita pakkauskoodekkeja:

a) Snappy (suositellaan tehokkaaseen tasapainoon puristussuhteen ja puristusnopeuden välillä),

b) Gzip (suositellaan, kun saavutetaan korkein pakkaustaso),

Sen avulla voit tehdä kyselyjä sisäkkäisissä rakenteissa, mukaan lukien kartat, rakenteet ja taulukot.
Se sallii usean käyttäjän samanaikaiset kyselyt ja mahdollistaa myös pääsyn hallinnan priorisoinnin ja kyselyiden jonottamisen perusteella.

Head to Head -vertailut pesän ja Impalan välillä (infografia)

Alla on 20 parasta vertailua Hive vs Impala välillä

Keskeinen ero pesän ja Impalan välillä

Erot pesän ja Impalan välillä selitetään alla esitetyissä kohdissa:

Jehoa kehitti Jeffin Facebook -tiimi, mutta Impalaa kehitti Apache Software Foundation .
Hive tukee optimoidun rivisarakkeen (ORC) tiedostomuotoa Zlib-pakkauksella, mutta Impala tukee Parketti-muotoa välkellä pakkauksella .
Hive on kirjoitettu Java, mutta Impala on kirjoitettu C ++.
Kyselyn käsittelynopeus Hivessä on hidasta, mutta Impala on 6-69 kertaa nopeampi kuin Hive .
Pesässä viive on korkea, mutta Impalassa viive on alhainen .
Hive tukee RC-tiedostojen ja ORC: n tallennusta, mutta Impala- tallennustuet ovat Hadoop ja Apache HBase .
Hive tuottaa kyselylausekkeen käännöshetkellä, mutta Impala-koodin generointi '' isoille silmukoille 'tapahtuu ajon aikana .
Pesä ei tue rinnakkaista prosessointia, mutta Impala tukee rinnakkaista prosessointia.
Pesä tukee MapReducea, mutta Impala ei tue MapReducea .
Hivessä ei ole suojausominaisuutta, mutta Impala tukee Kerberos-todennusta .
Kaikkien projektien päivityksissä, joissa yhteensopivuus ja nopeus ovat tärkeitä, Hive on ihanteellinen valinta, mutta uudelle projektille Impala on ihanteellinen valinta .
Pesä on vikasietoinen, mutta Impala ei tue vikasietoisuutta .
Pesä tukee monimutkaisia tyyppejä, mutta Impala ei tue monimutkaisia tyyppejä .
Hive on eräpohjainen Hadoop MapReduce, mutta Impala on MPP-tietokanta .
Hive ei tue interaktiivista laskentaa, mutta Impala tukee interaktiivista laskentaa .
Pesän kyselyllä on ”kylmäkäynnistyksen” ongelma, mutta Impala-daemon-prosessi käynnistetään itse käynnistyksen aikana .
Pesän resurssienhallinta on lanka (vielä toinen resurssineuvottelija), mutta Impalassa resurssienhallinta on natiivi * lanka .
Hive Distribution ovat kaikki Hadoop-jakelua, Hortonworks (Tez, LLAP), mutta Impala-jakelussa ovat Cloudera MapR (* Amazon EMR) .
Pesän yleisö on datainsinöörejä, mutta Impalassa yleisö on data-analyytikko / data-tutkija.
Pesän läpäisykyky on korkea, mutta Impalassa läpäisykyky on alhainen .

Hive vs Impala -vertailutaulukko

Sarjanumero.	Vertailun perusteet	Pesä	Impala
1.	Kehittäjä	Facebook	Apache-ohjelmisto perusta
2.	Tiedosto muoto	Sekvenssitiedosto. Tekstitiedosto. Optimoitu rivipylväs (ORC) -muoto Zlib-pakkauksella. RC-tiedostomuoto.	Parketti, tyylikäs ja tiivis. Avro LZO Sekvenssitiedosto.
3.	Kieli	Kirjoitettu JAVA-kielellä	Kirjoitettu C ++
4.	Käsittelynopeus	Pesä on hidas	Impala on nopea
5.	Viive	Korkea	Matala
6.	Tallennustuki	RC-tiedosto, ORC	Hadoop, Apache HBase
7.	Koodin muuntaminen	Luo kyselylausekkeen käännöshetkellä	Koodien luonti tapahtuu ajon aikana.
8.	Tukee rinnakkaista käsittelyä	Ei	Joo
9.	MapReduce-tuki	Joo	Ei
10.	Hadoop-suojaus	Ei	Tukee Kerberos-todennusta.
11.	Käyttö	Ihanteellinen projektin ylösasteikolle	Ihanteellinen uuden projektin aloittamiseen.
12.	Vikasietoinen	Pesä on vikasietoinen.	Ei tue vikasietoisuutta.
13.	Monimutkaiset tyypit	Pesä tukee monimutkaisia tyyppejä.	Impala ei tue monimutkaisia tyyppejä.
14.	Tietokantatyyppi	Hive on eräpohjainen Hadoop MapReduce.	Se on MPP-tietokanta
15.	Interaktiivinen laskenta	Ei tue interaktiivista laskentaa.	Tukee interaktiivista laskentaa.
16.	suoritus	Pesän kyselyssä on ongelma ”Cold Start” -toiminnolla	Impala-prosessi alkaa aina Daemonsin käynnistysajalla.
17.	Resurssienhallinta	LANKA	Alkuperäinen * lanka
18.	jakaumat	HIVE - kaikki Hadoop-jakelu, Hortonworks (Tez, LLAP)	Cloudera MapR, (* Amazon EMR)
19.	Yleisö	Tietoinsinöörit	Dataanalyytikko / Data Scientists
20.	suoritusteho	Suuri suorituskyky	Alhainen suorituskyky

Johtopäätös - pesä ja impala

Tässä artikkelissa olemme yrittäneet esitellä, että mitkä ovat kaksi tekniikkaa, nimittäin Hive ja Impala, ja myös perustavanlaatuinen ero näiden tekniikoiden välillä. Käytännössä voidaan sanoa, että Hive ja Impala eivät ole kilpailijoita, koska he molemmat kuuluvat samaan säätiöön, joka tunnetaan nimellä MapReduce kyselyjen suorittamiseen. Molempien käyttö voi luoda eron. Tarpeemme mukaan voimme käyttää sitä yhdessä tai parasta yhteensopivuuden, tarpeen ja suorituskyvyn mukaan. Pesän kyselykieli on Hive QL, joka on erittäin monipuolinen ja universaali kieli, kun taas Impala on muistia vaativa ja ei toimi hyvin raskaiden dataoperaatioiden käsittelyyn. Esimerkki liittymiskyselyistä. Jos projektisi liittyy suureen tietomäärään eräprosessointiin, Hive on siinä tapauksessa parempi ja jos työsi liittyy ad-hoc-kyselyn reaaliaikaiseen prosessiin, niin Impala on parempi siinä tapauksessa.

Suositeltava artikkeli

Tämä on opas Hive Vs Impalaan, niiden merkitykseen, Head to Head -vertailuun, avainerot, vertailutaulukko ja johtopäätökset. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -