Mikä on pesä?

Apache Hive on tietovarastojärjestelmä, joka on suunniteltu avoimen lähdekoodin Hadoop-alustan päälle ja jota käytetään tietojen yhteenvetoon, suurten tietojen kyselyihin, tietojen analysointiin jne.

Pous on kehittänyt Facebook ja myöhemmässä vaiheessa sen otti vastaan ​​Apache Software Foundation, joka kehitti sitä edelleen avoimena lähteenä nimellä Apache Hive.

Määritelmä:

Se ei ole relaatiotietokanta, ja siksi se ei sovellu online-tapahtumien käsittelyyn ja reaaliaikaisiin kyselyihin rivitason päivityksillä. Hive on suunniteltu online-analyyttiseen käsittelyyn tai OLAP: iin. Se tarjoaa myös kyselykielen nimeltä HiveQL. Se on skaalautuva, nopea ja laajennettava. Se muuntaa melkein SQL: n näköiset kyselyt MapReduce-töiksi suurten tietomäärien helpon suorittamisen ja käsittelyn helpottamiseksi. Apache-pesä on yksi Hadoopin komponenteista, joita data-analyytikot yleensä käyttävät. Apache-sikaa käytetään myös samaan tehtävään, mutta tutkijat ja ohjelmoijat käyttävät sitä enemmän. Apache-pesää, joka on avoimen lähdekoodin tietovarastointijärjestelmä, käytetään Hadoop-tallennustilaan tallennettujen valtavien tietojoukkojen kyselyyn ja analysointiin. Hive soveltuu parhaiten erätyöhön, ei online-tapahtumien käsittelytyötyyppeihin. Se ei myöskään tue reaaliaikaisia ​​kyselyitä. Hive käyttää SQL-tapaista kyselykieltä ja sitä käytetään pääasiassa raporttien luomiseen. Pesää käytetään yleensä palvelinpuolella ja se tukee jäsenneltyä tietoa. Hive tukee myös integraatiota JDBC- ja BI-työkalujen kanssa.

Hiven ymmärtäminen:

Alla on pesän tärkeimmät komponentit:

Meta Store:

Varastoa, joka tallentaa metatiedot, kutsutaan pesän metavarastoksi. Metatiedot koostuvat taulukoiden eri tiedoista, kuten sen sijainti, kaavio, osiotiedot, jotka auttavat seuraamaan eri tavoin hajautetun datan etenemistä klusterissa. Se myös seuraa tietoja ja kopioi tiedot, jotka tarjoavat varmuuskopion hätätilanteissa, kuten tiedon menetyksessä. Metatietotiedot ovat läsnä relaatiotietokannoissa eikä Hadoop-tiedostojärjestelmässä.

kuljettaja:

Kun Hive-kyselykielen käsky suoritetaan, kuljettaja vastaanottaa käskyn ja hallitsee sitä koko suoritusjakson ajan. Lausekkeen suorittamisen lisäksi kuljettaja tallentaa myös suorituksesta luodut metatiedot. Se luo myös istuntoja seuraamaan eri teloitusten etenemistä ja elinkaarta. Sen jälkeen kun MapReduce-työ on vähentänyt toiminnan, kuljettaja kerää kaikki kyselyn tiedot ja tulokset

kääntäjä:

Sitä käytetään kääntämään Hive-kyselykieli MapReduce-tuloon. Se vetoaa menetelmään, joka suorittaa vaiheet ja tehtävät, joita tarvitaan HiveQL-ulostulon lukemiseen MapReduce-sovelluksen tarpeiden mukaan.

Optimizer:

Optimoijan päätehtävänä on parantaa tehokkuutta ja skaalautuvuutta luomalla tehtävä samalla muuntamalla tietoja ennen pelkistysoperaatiota. Se suorittaa myös muunnoksia, kuten yhdistäminen, putkilinjan muuntaminen yhdellä liitoksella useille liitoksille.

executor:

Kokoonpanon ja optimointivaiheen jälkeen suorittajan päätehtävänä on suorittaa tehtävät. Toteuttajan päätehtävänä on olla vuorovaikutuksessa Hadoop-työpaikkaseurannan kanssa ajoitettujen tehtävien ajoittamiseksi.

Käyttöliittymä, säästäväinen palvelin ja CLI:

Muut asiakkaat käyttävät säästöpalvelinta vuorovaikutuksessa Hive-moottorin kanssa. Käyttöliittymä ja komentoriviliittymä auttavat lähettämään kyselyitä sekä prosessin seurantaa ja ohjeita, jotta ulkoiset käyttäjät voivat olla vuorovaikutuksessa pesän kanssa.

Alla on vaiheet, jotka osoittavat pesän vuorovaikutuksen Hadoop-kehyksen kanssa:

Suoritetaan kysely:

Kysely lähetetään kuljettajalle pesän käyttöliittymistä, kuten komentoriviltä tai web-käyttöliittymältä. Ohjain voi olla mikä tahansa tietokantaohjain, kuten JDB tai ODBC jne.

Suunnitelman saaminen:

Kyselyn tai kyselysuunnitelman vaatimuksen syntaksi voidaan tarkistaa kyselyn kääntäjällä, joka kulkee kyselyn läpi ja ohjain kutsuu sen täytäntöön.

Metatietojen hakeminen:

Metavarasto voi sijaita missä tahansa tietokannassa, ja kääntäjä pyytää pääsyä metatietoihin.

Metatietojen lähettäminen:

Kääntäjän pyynnöstä metavarasto lähettää metatiedot.

Suunnitelman lähettäminen:

Kääntäjä lähettää suunnitelman kuljettajalle tarkistaakseen kääntäjän lähettämät vaatimukset. Tämä vaihe viimeistelee kyselyn jäsentämisen ja kääntämisen.

Suunnitelman toteuttaminen:

Kuljettaja lähettää suoritussuunnitelman suoritusmoottorille.

Työn suorittaminen:

Työn suorittaminen on MapReduce-työ, joka suoritetaan taustalla. Sitten se noudattaa Hadoop-kehyksen tavanomaista käytäntöä - suoritusmoottori lähettää työn nimityssolmussa olevalle työnhakijalle, ja nimissolmu puolestaan ​​osoittaa työn tehtäväseurannalle, joka on tietoilmoituksessa. MapReduce-työ suoritetaan täällä.

Metatiedot:

Työtä suoritettaessa suoritusmoottori voi suorittaa metatietotoiminnot metakaupan avulla.

Tuloksen nouto:

Käsittelyn päätyttyä tietosolmut välittävät tuloksen suoritusmoottorille.

Lähetetään tulos

Kuljettaja saa tuloksen suoritusmoottorilta.

Lähetyksen tulos:

Lopuksi Hive-rajapinnat vastaanottavat tuloksen ohjaimelta.

Siten suorittamalla yllä olevat vaiheet, täydellinen kysely suoritetaan Hivessä.

Kuinka pesä tekee työskentelystä niin helppoa?

Hive on Hadoopin päälle rakennettu tietovarastokehys, joka auttaa käyttäjää suorittamaan data-analyysiä, tiedustelujen tekemistä ja tietojen yhteenvetoa suurilla tietoryhmillä. HiveQL on ainutlaatuinen ominaisuus, joka näyttää tietokantaan tallennetulta SQL-tiedolta ja suorittaa laajan analyysin. Pystyin lukemaan tietoja erittäin suurella nopeudella ja kirjoittamaan tietoja tietovarastoihin sekä pystymään hallitsemaan suuria, useisiin paikkoihin hajautettuja tietojoukkoja. Yhdessä tämän pesän kanssa rakennetaan myös tietokantaan tallennettua tietoa, ja käyttäjät voivat muodostaa yhteyden pesään käyttämällä komentorivityökalua tai JDBC-ohjainta.

Suosituimmat yritykset:

Suuret suuret tiedot käsittelevät organisaatiot käyttivät pesää - kuten facebook, Amazon, Walmart ja monet muut.

Mitä voit tehdä Hivelle?

Pesässä on paljon toiminnallisuuksia, kuten tietojen kysely, tietojen yhteenveto ja data-analyysi. Hive tukee HiveQL- tai Hive Query Language -nimistä kyselykieltä. Hive-kyselykielen kyselyt käännetään MapReduce-työksi, joka käsitellään Hadoop-klusterissa. Tämän lisäksi Hiveql vähentää myös komentosarjoja, jotka voidaan lisätä kyselyihin. Tällä tavoin HiveQL lisää kaavion suunnittelun joustavuutta, joka tukee myös datan arviointia ja sarjoittamista.

Työskentely pesän kanssa:

Alla on joitain Hive-operaation yksityiskohtia. Kasvustotyypit luokitellaan laajasti neljään tyyppiin seuraavasti:

  • Saraketyypit
  • literals
  • Nolla-arvot
  • Monimutkaiset tyypit

1. Saraketyypit:

Nämä ovat pesän sarakkeen tietotyypit. Ne luokitellaan seuraavasti:

  • Integroidut tyypit: Kokonaislukudata esitetään integroidun tietotyypin avulla. Symboli on INT. Kaikille INT: n ylärajan ylittäville tiedoille on osoitettava BIGINT: n tietotyyppi. Samoin kaikille INT: n alarajan alapuolella oleville tiedoille on annettava SMALLINT. On myös toinen tietotyyppi nimeltään TINYINT, joka on jopa pienempi kuin SMALLINT.
  • Merkkijonotyypit: Merkkijonotietotyyppi esitetään pesässä yhdellä lainauksella (') tai kaksoislainauksella ("). Se voi olla kahta tyyppiä - VARCHAR tai CHAR.
  • Aikaleima: pesän aikaleima tukee java.sql.Aikaleiman muotoa ”vvv-kk-pp ht: kk: ss.ffffffffff” ja muotoa ”VVVV-KK-PP PP: PP: MM: SS.fffffffff”.
  • Päivämäärä: Päivämäärä esitetään pesässä muodossa VVVV-KK-PP, joka edustaa vuotta, kuukautta, päivää.
  • Desimaalit : Tarran desimaalit esitetään java iso desimaalimuodossa ja niitä käytetään muuttumattoman mielivaltaisen tarkkuuden esittämiseen. Se on esitetty muodossa desimaali (tarkkuus, mittakaava).
  • Unionityypit: Unionissa käytetään pesässä heterogeenisen tietotyypin kokoelman luomista. Se voidaan luoda käyttämällä liittoa.

Alla on esimerkki:

UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)
UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)

2. Kirjaimet:

Pesässä käytetään vähän kirjaimia. Ne ovat seuraavat:

  • Liukulukun tyyppi : Ne esitetään lukuina desimaalin tarkkuudella. Nämä ovat melko samanlaisia ​​kuin kaksoistiedot.
  • Desimaalityyppi : Tämäntyyppinen data sisältää vain desimaalityyppisiä tietoja, mutta niiden liukulukuarvon korkeampi alue on kuin kaksoistietotyyppi. Desimaalityypin alue on likimääräinen -10 -308-10 308.

3. nolla-arvo:

Erityisarvo NULL edustaa puutarhan puuttuvia arvoja.

4. Kompleksityypit:

Alla on pesästä löytyvät erilaiset monimutkaiset tyypit:

  • Ryhmät : Ryhmät esitetään pesässä samassa muodossa kuin java. Syntaksi on kuin ARRAY.
  • Kartat : Kartat esitetään pesässä samassa muodossa kuin Java. Syntaksi on kuin MAP
  • .
  • Radat : Tarran raot esitetään monimutkaisina tiedoina kommenteilla. Syntaksi on kuin STRUCT.

Kaikkien näiden lisäksi voimme luoda tietokantoja, taulukoita, osioida niitä ja paljon muita toimintoja.

  • Tietokannat: Ne ovat nimiavaroja, jotka sisältävät taulukkokokoelman. Alla on syntaksi tietokannan luomiseksi pesässä.

CREATE DATABASE (IF NOT EXISTS) sampled;

Tietokannat voidaan myös pudottaa, jos niitä ei enää tarvita. Alla on syntaksi pudottaa tietokanta.

DROP DATABASE (IF EXISTS) sampled;

  • Taulukot: Ne voidaan myös luoda pesään tietojen tallentamiseksi. Alla on syntaksi taulukon luomiseen.

CREATE (TEMPORARY) (EXTERNAL) TABLE (IF NOT EXISTS) (db_name.) table_nam
((col_name data_type (COMMENT col_comment), …)) (COMMENT table_comment
(ROW FORMAT row_format) (STORED AS file_format)

Pöytä voidaan myös pudottaa, jos sitä ei enää tarvita. Alla on syntaksi pudottaa taulukko.

DROP TABLE (IF EXISTS) table_name;

edut

Apache Hive -sovelluksen tärkein etu on tietojen kysely, yhteenveto ja analyysi. Pesä on suunniteltu kehittäjän paremmalle tuottavuudelle, ja mukana tulee myös kustannukset, jotka johtuvat latenssin lisäämisestä ja tehon alenemisesta. Apache Hive tarjoaa laajan valikoiman käyttäjän määrittelemiä toimintoja, jotka voidaan yhdistää muihin Hadoop-paketteihin, kuten RHipe, Apache Mahout jne.. Se auttaa kehittäjiä suurelta osin työskennellessään monimutkaisten analyyttisten prosessointien ja useiden tietomuotojen kanssa. Sitä käytetään pääasiassa tietovarastointiin, mikä tarkoittaa järjestelmää, jota käytetään raportointiin ja tietojen analysointiin.

Siihen kuuluu tietojen puhdistaminen, muuntaminen ja mallintaminen hyödyllisen tiedon tarjoamiseksi erilaisista liiketoiminnan näkökohdista, jotka auttavat tuottamaan hyötyä organisaatiolle. Tietoanalyysi paljon erilaisia ​​näkökulmia ja lähestymistapoja, jotka käsittävät monipuoliset tekniikat ja monenlaisia ​​nimiä erilaisissa liiketoimintamalleissa, yhteiskuntatieteellisissä aloissa jne. Pesä on paljon käyttäjäystävällinen ja antaa käyttäjille mahdollisuuden käyttää tietoja samanaikaisesti, mikä lisää vastausaikaa. Verrattuna muun tyyppisiin valtavien tietojoukkojen kyselyihin, pesän reaktioaika on paljon nopeampi kuin toisten. Se on myös suorituskyvyn suhteen joustava lisättäessä enemmän dataa ja lisäämällä klusterin solmujen lukumäärää.

Miksi meidän pitäisi käyttää pesää?

Tietojen analysoinnin lisäksi pesä tarjoaa laajan valikoiman vaihtoehtoja tietojen tallentamiseksi HDFS: ään. Hive tukee erilaisia ​​tiedostojärjestelmiä, kuten tasaista tiedostoa tai tekstitiedostoa, sekvenssitiedostoa, joka koostuu binaarisista avain-arvopareista, RC-tiedostoja, jotka tallentavat taulukon sarakkeen sarakkeistietokantaan. Nykyään Hivelle sopivin tiedosto tunnetaan ORC-tiedostoina tai optimoiduina rivipalkkitiedostoina.

Miksi tarvitsemme pesää?

Nykymaailmassa Hadoop liittyy laajimpaan tekniikkaan, jota käytetään suurten tietojen käsittelyyn. Erittäin rikas kokoelma työkaluja ja tekniikoita, joita käytetään tietojen analysointiin ja muuhun suureen tietojenkäsittelyyn.

Kuka on oikea yleisö pesemistekniikoiden oppimiseen?

Suurin osa ihmisistä, joilla on tausta kehittäjinä, Hadoop-analytiikka, järjestelmänvalvojat, tietovarastointi, SQL-ammattilaiset ja Hadoop-hallinto, voivat hallita pesän.

Kuinka tämä tekniikka auttaa sinua uran kasvussa?

Pesä on nykyään yksi markkinoiden kuumimmista taitoista ja se on yksi parhaista datan analysointityökaluista Hadoop big data -maailmassa. Suuret yritykset, jotka analysoivat suuria tietokokonaisuuksia, etsivät aina ihmisiä, joilla on taidot, jotta ne voivat hallita ja kysellä valtavia tietomääriä. Hive on yksi viime päivien parhaista suurten tietotekniikoiden markkinoilla saatavilla olevasta työkalusta, joka voi auttaa organisaatiota ympäri maailmaa niiden tietoanalyysissä.

johtopäätös:

Edellä annettujen toimintojen lisäksi pesällä on paljon edistyneempiä ominaisuuksia. Pesän voima käsitellä suurta määrää tietojoukkoja erittäin tarkasti tekee pesästä yhden parhaan työkalun, jota käytetään analytiikkaan isolla tietoalustalla. Sillä on myös suuri potentiaali nousta tulevina päivinä yhdeksi johtavista suurten tietojen analysointityökaluista johtuen säännöllisistä parannuksista ja helppokäyttöisyydestä loppukäyttäjälle.

Suositellut artikkelit

Tämä on opas Mikä on pesää. Tässä keskustelimme pesän ja tämän tekniikan toteuttavien huippuyritysten työstä, taidoista, uran kasvusta, eduista. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -

  1. Pesän komennot
  2. Pesän haastattelukysymykset
  3. Mikä on Azure?
  4. Mikä on Big Data Technology?
  5. Pesän arkkitehtuuri | Määritelmä
  6. ORDER BY -toiminnon käyttö pesässä

Luokka: