Johdanto pesän vaihtoehtoihin

Ennen kuin keskustelemme HIVEn vaihtoehdoista. Ymmärretään ensin, mikä on HIVE? Joten HIVE on pohjimmiltaan tietovarastointityökalu, joka on kehitetty HDFS: n (Hadoop Distributed File System) päälle. Sitä käytetään SQL-tyyppisen kyselyrajapinnan antamiseen kyselydatalle, joka on tallennettu erilaisiin Hadoopin kanssa integroituihin tiedostoihin. Se muuntaa SQL-tyyppiset kyselyt Map Reduce -työhön, joka auttaa suurten tietomäärien suorittamisessa helposti.

ominaisuudet

Alla on joitain pesän ominaisuuksia:

  • Kuten SQL: lläkin, sillä on oma deklaratiivinen kieli nimeltään HiveQL.
  • Sillä on taulukkorakenne, joka on samanlainen kuin relaatiotietokannan taulukot, ja se tarjoaa myös ETL (pura / tuki / lataus) -tuen.
  • Mielenkiintoinen ominaisuus on, että se mahdollistaa muodon muuntamisen HIVE: n sisällä.

Pesän vaihtoehtojen rajoitus

Otetaan huomioon muutamat pesän rajoitukset:

  • Sitä ei ole suunniteltu OLTP: tä (online Transaction Processing) varten, mutta se tukee OLAP: ta (Online Analytical Processing).
  • Yksi tärkeä rajoitus on, että se ei tue päivityksiä ja poistaa.
  • Myös pesässä alakehyksiä ei tueta.

5 tärkeätä pesän vaihtoehtoa

Jäljempänä keskustelemme viidestä markkinoilla läsnä olevasta HIVE-vaihtoehdosta:

1. Apache Impala

Se on avoimen lähdekoodin rinnakkaiskäsittely-SQL-kyselymoottori tietoihin, jotka on tallennettu Apache Hadoopia käyttävälle tietokone klusterille. Se julkistettiin lokakuussa 2012. Alla on Apache Impalan tärkeimmät ominaisuudet vaihtoehtona HIVE: lle.

  • Impala on hyvä valinta ihmisille, jotka suorittavat SQL-kyselyjä Hadoop- ja Apache HBase -sovelluksissa muuttamatta tietoja, koska sitä ei tarvitse muuttaa tai siirtää tietoja, toisin kuin HIVE.
  • Toinen ero näiden kahden välillä on kyselylausekkeiden luominen. Impala tuottaa ne suorituksen aikana llvm: llä, kun taas HIVE tuottaa ne kokoamisaikana.
  • Hive Queries -yrityksellä on kylmäkäynnistyksen ongelma, joka ei ole Impala-kyselyiden tapaus, koska Impala-daemon-prosessit käynnistetään käynnistysajalla, joka on aina valmis käsittelemään kyselyä, jonka vuoksi se välttää kylmäkäynnistysongelman.
  • Impala tunnistaa Hadoop-tiedostomuodot, Hadoop-tietoturvan ja ODBC-ohjaimen.
  • Impalan tärkein USP on rinnakkaisprosessoinnin raa'at voimat. Joten Impala on parempi vaihtoehto, jos aloitetaan uusi projekti.

2. Presto DB

Presto on toinen vaihtoehto HIVE: lle, jonka on kehittänyt facebook. Sen USP on, että se pystyy jopa kysymään tietoja useista lähteistä yhdellä kyselyllä. Alla on PrestoDB: n tärkeimmät ominaisuudet vaihtoehtona HIVE: lle.

  • Presto on muistiin hajautettu SQL-kyselymoottori, joka on myös erittäin nopea, koska Preston hakukone on nopea ja soveltuu hyvin interaktiiviseen analyysiin.
  • Prestron USP muihin verrattuna on sen plug and play -malli eri tietolähteillä. Tämän plug and play -mallin ansiosta kyselyjen yhdistäminen eri tietolähteiden välillä on erittäin helppoa presto-sovelluksen avulla.
  • Prestossa pienten mittojen liitospöydät on tehty nopeammin. Presto on erinomainen useimpien muiden hajautettujen hakukoneiden kanssa.
  • Presto ei sovellu suuriin tosiasiallisiin liittymiin, koska se ei hyödyntä levyä ja käytä muistia käsittelyyn.
  • Yksi tärkeä asia prestolle on sen resurssien allokointi. Sillä on prioriteettijonoon perustuva resurssien allokointi.
  • Yksi kompromissi hyvään suorituskykyyn Prestossa on se, että UDF-tukea ei ole saatavana prestossa, minkä vuoksi joudutaan kirjoittamaan oma toiminto, joka lisää yleiskustannuksia, koska se on rakennettava yksinomaan prestoon ja haittaa yhteentoimivuutta.

3. Spark SQL

Se on moduuli myös jäsennellylle tietojenkäsittelylle ja avoimen lähdekoodin sovelluksille. Se voi toimia myös hajautettuna SQL-kyselymoottorina, ja myös ainutlaatuinen osa tätä on se, että se tarjoaa tietokehyksiksi kutsutun ohjelmoinnin abstraktion. Se julkaistiin ensimmäisen kerran vuonna 2014, jonka on kehittänyt Apache Software Foundation. Alla on joitain Spark SQL: n tärkeimmistä ominaisuuksista vaihtoehtona HIVE: lle.

  • Hyvä asia Spark SQL: ssä on, että se voidaan toteuttaa Java-, Scala-, Python- ja R-kielillä, kun taas HIVE voidaan toteuttaa Java-kielellä.
  • Ensisijainen tietokantamalli on täysin samankaltainen HIVE: n ja Sparkin välillä, koska molemmat ensisijaiset tietokantamallit ovat relaatiotietokannan DBMS.
  • Se on myös samanlainen kuin HIVE, koska molemmat tukevat Key-Value-kauppaa ylimääräisenä tietokantamallina.
  • Sillä on ennalta määritetyt tietotyypit, kuten kelluva ja päivämäärä.
  • Se tukee SQL: tä, koska sillä on DML- ja DDL-lauseet.
  • Toisin kuin HIVE, joka tukee JDBC, ODBC ja Thrift, Spark SQL tukee vain JDBC ja ODBC.
  • Spark SQL käyttää kipinäydintä tietojen tallentamiseen eri solmuihin.
  • Toinen suuri ero kipinän ja HIVE: n välillä on replikaatiomenetelmät: HIVE: ssä on selektiivinen replikaatiotekijä redundanttisen datan tallentamiseksi useille solmuille, mutta replikaatiotekijää ei ole saatavana Spark SQL: ssä.
  • Spark SQL: ssä käyttäjille ei ole pääsyoikeuksia, kun taas Apache Hivessä meillä on käyttöoikeudet käyttäjille, ryhmille.
  • Se ei tue transaktiotaulua eikä tue char-tyyppiä.

4. Hai

Se on avoimen lähdekoodin SQL-hakukone, joka on kirjoitettu Scalassa. Hain mielenkiintoinen tosiasia on, että sen sijaan, että Map-Reducea käytettäisiin kyselyiden suorittamiseen, se käyttää omia työntekijäsolmujaan. Alla on joitain hain ominaisuuksia:

  • Se käyttää komentorivisovellusta.
  • Se tarjoaa yhteentoimivuuden Hive-järjestelmän kanssa kaavioiden jakamista varten.
  • Se tarjoaa tukea olemassa oleville pesän laajennuksille, kuten UDF.

Se ei ole vielä kovin kuuluisa, mutta tarjoaa vaihtoehdon HIVE: lle.

5. IBM: n BigSQL

Sen tarjoaa Big Blue (IBM). IBM: llä on oma Hadoop-jakelu nimeltään Big Insights. Joten Big SQL: tä tarjotaan osana sitä. Se ei ole avoin lähdekoodi, koska sen tarjoaa IBM. Jotkut heidän tarjoamistaan ​​asioista ovat seuraavat:

  • Ne tukevat sekä JDBC- että OJDBC-ohjaimia.
  • Ne tarjoavat SQL-tukea
  • Niitä voidaan käyttää tietojen hakuun HDFS: ltä.

Suositellut artikkelit

Tämä on opas pesän vaihtoehtoihin. Tässä keskustellaan ominaisuuksista, rajoituksista ja 5 tärkeästä pesän vaihtoehdosta. Voit myös käydä läpi muiden aiheeseen liittyvien artikkeleidemme saadaksesi lisätietoja-

  1. Hadoop-vaihtoehdot
  2. Taulukon vaihtoehdot
  3. Google Analytics -vaihtoehdot
  4. Hadoop-suoratoisto
  5. Pesän tilauksen tekijä
  6. Pesän asennus
  7. Tietokehykset R: ssä

Luokka: