Ero pesän ja Impalan välillä

Hive on Jeffin Facebook-tiimin kehittämä APACHE HADOOP -sovelluksen päälle rakennettu tietovarasto-ohjelmistoprojekti, jonka nykyinen vakaa versio 2.3.0 on julkaistu. Sitä käytetään suurten tietojen yhteenvetoon ja se tekee kyselyistä ja analysoinnista helppoa. Apache Hive on tehokas standardi SQL-in Hadoopille. Impala on rinnakkaisprosessoiva SQL-kyselymoottori, joka toimii Apache Hadoopissa ja jota käytetään HBaseen (Hadoop-tietokanta) ja Hadoop-hajautettuun tiedostojärjestelmään tallennettujen tietojen käsittelemiseen. Impala on avoimen lähdekoodin tuote rinnakkaiskäsittelyn (MPP) SQL-kyselymoottorille, joka on tallennettu Apache Hadoopilla toimivaan paikallisiin järjestelmiin. Apache Hive ja Impala ovat molemmat tärkeät osat Hadoop-järjestelmässä.

Joten tutkitaan yksityiskohtaisesti sekä Hiveä että Impalaa:

PESÄ

  • Apache Hive auttaa Hadoop-tiedostojärjestelmään (HDFS) ja muihin yhteensopiviin tiedostojärjestelmiin tallennetun valtavan aineiston analysoinnissa.
  • Hive QL - Hadoop-klusteriin tallennettujen tietojen kyselyä varten.
  • Hyödyntää Hadoopin skaalautuvuutta käännöksellä .
  • Pesä ei ole täydellinen tietokanta .
  • Se ei tarjoa tietuetason päivityksiä .
  • Hadoop on panosorientoitu järjestelmä .
  • Pesän kyselyillä on korkea viive, johtuen MapReducesta .
  • Hive ei tarjoa ominaisuuksia Se on lähellä OLAP: ta .
  • Soveltuu parhaiten tietovarasto-sovelluksiin .
  • Kyselyn suorittaminen MapReducen kautta .
  • kyselykieltä voidaan käyttää mukautettujen skalaarifunktioiden (UDF), aggregaatioiden (UDAF) ja taulukkojen funktioiden (UDTF) kanssa .
  • Hive tarjoaa myös indeksoinnin nopeuttamiseksi, hakemistotyyppi mukaan lukien tiivistys ja bittikartta-indeksi alkaen 0, 10, lisää hakemistotyyppejä suunnitellaan.
  • Hive-tuetut tallennustyypit ovat RCfile, HBase, ORC ja Plain text .
  • SQL-tyyppiset kyselyt (Hive QL), jotka muunnetaan implisiittisesti MapReduce-, Tez- tai Spark-töiksi .
  • Oletuksena Hive tallentaa metatiedot upotettuun Apache Derby-tietokantaan .

IMPALA

  • Impala on hakukone, joka toimii Hadoopilla . Se julkinen beetatestijakelu julkistettiin lokakuussa 2012, ja se tuli yleisesti saataville toukokuussa 2013.
  • Se tukee HDFS Apache HBase -tallennustilaa ja Amazon S3: ta .
  • Lukee Hadoop-tiedostomuotoja, mukaan lukien teksti-, parketti-, Avro-, RCFile-, LZO- ja sekvenssitiedostot .
  • Tukee Hadoop Security (Kerberos-todennusta) .
  • Käyttää metatietoja, ODBC-ohjainta ja SQL-syntaksia Apache Hiveltä .
  • Se tukee useita pakkauskoodekkeja:

a) Snappy (suositellaan tehokkaaseen tasapainoon puristussuhteen ja puristusnopeuden välillä),

b) Gzip (suositellaan, kun saavutetaan korkein pakkaustaso),

(c) tyhjennä (ei tueta tekstitiedostoille), Bzip2, LZO (vain tekstitiedostot);

  • Sen avulla voit tehdä kyselyjä sisäkkäisissä rakenteissa, mukaan lukien kartat, rakenteet ja taulukot.
  • Se sallii usean käyttäjän samanaikaiset kyselyt ja mahdollistaa myös pääsyn hallinnan priorisoinnin ja kyselyiden jonottamisen perusteella.

Head to Head -vertailut pesän ja Impalan välillä (infografia)

Alla on 20 parasta vertailua Hive vs Impala välillä

Keskeinen ero pesän ja Impalan välillä

Erot pesän ja Impalan välillä selitetään alla esitetyissä kohdissa:

  • Jehoa kehitti Jeffin Facebook -tiimi, mutta Impalaa kehitti Apache Software Foundation .
  • Hive tukee optimoidun rivisarakkeen (ORC) tiedostomuotoa Zlib-pakkauksella, mutta Impala tukee Parketti-muotoa välkellä pakkauksella .
  • Hive on kirjoitettu Java, mutta Impala on kirjoitettu C ++.
  • Kyselyn käsittelynopeus Hivessä on hidasta, mutta Impala on 6-69 kertaa nopeampi kuin Hive .
  • Pesässä viive on korkea, mutta Impalassa viive on alhainen .
  • Hive tukee RC-tiedostojen ja ORC: n tallennusta, mutta Impala- tallennustuet ovat Hadoop ja Apache HBase .
  • Hive tuottaa kyselylausekkeen käännöshetkellä, mutta Impala-koodin generointi '' isoille silmukoille 'tapahtuu ajon aikana .
  • Pesä ei tue rinnakkaista prosessointia, mutta Impala tukee rinnakkaista prosessointia.
  • Pesä tukee MapReducea, mutta Impala ei tue MapReducea .
  • Hivessä ei ole suojausominaisuutta, mutta Impala tukee Kerberos-todennusta .
  • Kaikkien projektien päivityksissä, joissa yhteensopivuus ja nopeus ovat tärkeitä, Hive on ihanteellinen valinta, mutta uudelle projektille Impala on ihanteellinen valinta .
  • Pesä on vikasietoinen, mutta Impala ei tue vikasietoisuutta .
  • Pesä tukee monimutkaisia ​​tyyppejä, mutta Impala ei tue monimutkaisia ​​tyyppejä .
  • Hive on eräpohjainen Hadoop MapReduce, mutta Impala on MPP-tietokanta .
  • Hive ei tue interaktiivista laskentaa, mutta Impala tukee interaktiivista laskentaa .
  • Pesän kyselyllä on ”kylmäkäynnistyksen” ongelma, mutta Impala-daemon-prosessi käynnistetään itse käynnistyksen aikana .
  • Pesän resurssienhallinta on lanka (vielä toinen resurssineuvottelija), mutta Impalassa resurssienhallinta on natiivi * lanka .
  • Hive Distribution ovat kaikki Hadoop-jakelua, Hortonworks (Tez, LLAP), mutta Impala-jakelussa ovat Cloudera MapR (* Amazon EMR) .
  • Pesän yleisö on datainsinöörejä, mutta Impalassa yleisö on data-analyytikko / data-tutkija.
  • Pesän läpäisykyky on korkea, mutta Impalassa läpäisykyky on alhainen .

Hive vs Impala -vertailutaulukko

Sarjanumero.Vertailun perusteetPesäImpala
1.KehittäjäFacebookApache-ohjelmisto
perusta
2.Tiedosto muoto
  • Sekvenssitiedosto.
  • Tekstitiedosto.
  • Optimoitu rivipylväs (ORC) -muoto Zlib-pakkauksella.
  • RC-tiedostomuoto.
  • Parketti, tyylikäs ja tiivis.
  • Avro
  • LZO
  • Sekvenssitiedosto.
3.KieliKirjoitettu JAVA-kielelläKirjoitettu C ++
4.KäsittelynopeusPesä on hidasImpala on nopea
5.ViiveKorkeaMatala
6.TallennustukiRC-tiedosto, ORCHadoop, Apache HBase
7.Koodin muuntaminenLuo kyselylausekkeen käännöshetkelläKoodien luonti tapahtuu ajon aikana.
8.Tukee rinnakkaista käsittelyäEiJoo
9.MapReduce-tukiJooEi
10.Hadoop-suojausEiTukee Kerberos-todennusta.
11.KäyttöIhanteellinen projektin ylösasteikolleIhanteellinen uuden projektin aloittamiseen.
12.VikasietoinenPesä on vikasietoinen.Ei tue vikasietoisuutta.
13.Monimutkaiset tyypitPesä tukee monimutkaisia ​​tyyppejä.Impala ei tue monimutkaisia ​​tyyppejä.
14.TietokantatyyppiHive on eräpohjainen Hadoop MapReduce.Se on MPP-tietokanta
15.Interaktiivinen laskentaEi tue interaktiivista laskentaa.Tukee interaktiivista laskentaa.
16.suoritusPesän kyselyssä on ongelma ”Cold Start” -toiminnollaImpala-prosessi alkaa aina Daemonsin käynnistysajalla.
17.ResurssienhallintaLANKAAlkuperäinen * lanka
18.jakaumatHIVE - kaikki Hadoop-jakelu, Hortonworks (Tez, LLAP)Cloudera MapR,
(* Amazon EMR)
19.YleisöTietoinsinööritDataanalyytikko / Data Scientists
20.suoritustehoSuuri suorituskykyAlhainen suorituskyky

Johtopäätös - pesä ja impala

Tässä artikkelissa olemme yrittäneet esitellä, että mitkä ovat kaksi tekniikkaa, nimittäin Hive ja Impala, ja myös perustavanlaatuinen ero näiden tekniikoiden välillä. Käytännössä voidaan sanoa, että Hive ja Impala eivät ole kilpailijoita, koska he molemmat kuuluvat samaan säätiöön, joka tunnetaan nimellä MapReduce kyselyjen suorittamiseen. Molempien käyttö voi luoda eron. Tarpeemme mukaan voimme käyttää sitä yhdessä tai parasta yhteensopivuuden, tarpeen ja suorituskyvyn mukaan. Pesän kyselykieli on Hive QL, joka on erittäin monipuolinen ja universaali kieli, kun taas Impala on muistia vaativa ja ei toimi hyvin raskaiden dataoperaatioiden käsittelyyn. Esimerkki liittymiskyselyistä. Jos projektisi liittyy suureen tietomäärään eräprosessointiin, Hive on siinä tapauksessa parempi ja jos työsi liittyy ad-hoc-kyselyn reaaliaikaiseen prosessiin, niin Impala on parempi siinä tapauksessa.

Suositeltava artikkeli

Tämä on opas Hive Vs Impalaan, niiden merkitykseen, Head to Head -vertailuun, avainerot, vertailutaulukko ja johtopäätökset. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. Apache Hive vs Apache Spark SQL - 13 uskomattomia eroja
  2. Hive VS HUE - kuusi hyödyllistä oppimisvertailua
  3. Apache Pig vs Apache Hive - 12 suosituinta eroa
  4. Hadoop vs. pesää - selvitä parhaat erot
  5. ORDER BY -toiminnon käyttö pesässä

Luokka: