Johdanto Hadoop-työkaluihin

Hadoop-työkalut ovat kehys, jota käytetään suuren määrän tietojen käsittelemiseen. Nämä tiedot jaetaan klusterissa ja jaettu laskenta suoritetaan. Tiedot tallennetaan 128 Mt: n lohkoihin, ja Map Reduce -prosessin käsittelyyn ja tuloksen saavuttamiseen käytetään prosessointia ja saavuttamista. Map and Reduce kirjoitettiin perinteisesti Java-kielellä, mutta Datavarastossa työskentelevien resurssien taitoa oli vaikea ylittää, koska heillä ei ollut kokemusta siitä. SQL tunnetaan hyvin ja sitä on helppo käyttää, joten etsimällä tapa kirjoittaa SQL kuten kysely, joka muunnetaan Kartta- ja Pienennä -kyselyiksi, Facebook perusti tämän ja myöhemmin lahjoitti Apachelle, tämä työkalu tunnetaan nimellä Hive. Yahoo keksi myös työkalun nimeltä Pig, joka muunnetaan Map Reduce -sovellukseen toteutuksen yhteydessä. Samoin meillä on Sqoop ja flume tiedonsiirto- ja injektiotyökaluille. HBase on tietokannan hallintajärjestelmätyökalu.

Hadoop-työkalujen ominaisuudet

  1. Pesä
  2. Sika
  3. Sqoop
  4. HBase
  5. Zookeeper
  6. Flume

Nyt näemme ominaisuudet lyhyellä selityksellä.

1. pesä

Facebook perusti Apache-pesän ja myöhemmin lahjoitti Apache-säätiölle, joka on tietovarastoinfrastruktuuri. Se helpottaa SQL: n kirjoittamista kuten Query-niminen HQL tai HiveQL. Nämä kyselyt muunnetaan sisäisesti Map Reduce -työhön ja käsittely suoritetaan Hadoopin hajautettua laskentaa käyttämällä. Se voi käsitellä HDFS: ssä, S3: ssa olevia tietoja ja kaikki Hadoopin kanssa yhteensopivat tallennustilat. Voimme hyödyntää Map Reduce -palveluiden tarjoamia palveluita aina, kun löydämme jotain vaikeata toteuttaa Hivessä toteuttamalla käyttäjän määrittämiä toimintoja. Sen avulla käyttäjä voi rekisteröidä UDF: t ja käyttää niitä töissä.

Pesän ominaisuudet

  • Hive voi käsitellä monen tyyppisiä tiedostomuotoja, kuten sekvenssitiedosto, ORC-tiedosto, TextFile jne.
  • Osiointi, Bucketing ja indeksointi ovat saatavissa nopeampaan suorittamiseen.
  • Pakatut tiedot voidaan myös ladata pesätauluun.
  • Hallitut tai sisäiset taulukot ja ulkoiset taulukot ovat Hiven tärkeimmät piirteet.

2. Sika

Yahoo kehitti Apache Pig -sovelluksen ylimääräiseksi työkaluksi Hadoopin vahvistamiseksi käyttämällä ad-hoc-tapaa Map Reduce -sovelluksen toteuttamiseen. Pigillä on moottori nimeltä Pig Engine, joka muuntaa skriptit Map Reduce -sovellukseksi. Sika on skriptikieli, sikalle kirjoitetut skriptit ovat PigLatinissa, aivan kuten Hive täälläkin, meillä voi olla UDF: itä toimintojen parantamiseksi. Sian tehtävät optimoidaan automaattisesti, joten ohjelmoijien ei tarvitse huolehtia siitä. Sika käsittelee sekä jäsenneltyä että jäsentämätöntä tietoa.

Sian ominaisuudet

  • Käyttäjillä voi olla omat toiminnonsa suorittaa erityyppinen tietojenkäsittely.
  • Koodeja on helppo kirjoittaa sikaan verrattuna, myös koodin pituus on vähemmän.
  • Järjestelmä voi optimoida suorituksen automaattisesti.

3. Sqoop

Sqoopia käytetään siirtämään tietoja HDFS: stä RDBMS: ään ja päinvastoin. Voimme vetää tiedot HDFS: ään RDBMS: stä, Hivestä jne. Ja voimme käsitellä ja viedä ne takaisin RDBMS: ään. Voimme liittää tiedot useita kertoja taulukkoon. Lisäksi voimme luoda Sqoop-työn ja suorittaa sen 'n' monta kertaa.

Sqoopin ominaisuudet

  • Sqoop voi tuoda kaikki taulukot kerralla HDFS: ään.
  • Voimme upottaa SQL-kyselyitä samoin kuin tietojen tuontiehtoja.
  • Voimme tuoda tietoja pesään, jos taulukko on läsnä HDFS: stä.
  • Karttaajien lukumäärää voidaan hallita, ts. Rinnakkaista toteutusta voidaan hallita määrittämällä karttaajien lukumäärä.

4. HBase

HDFS: n päällä olevaa tietokannan hallintajärjestelmää kutsutaan nimellä HBase. HBase on NoSQL-tietokanta, joka on kehitetty HDFS: n päälle. HBase ei ole relaatiotietokanta, se ei tue jäsenneltyjä kyselykieliä. HBase hyödyntää HDFS: n hajautettua käsittelyä. Siinä voi olla suuria pöytiä miljoonilla ja miljoonilla tietueilla.

HBase: n ominaisuudet

  • HBase tarjoaa skaalautuvuuden sekä lineaarisesti että modulaarisesti.
  • JAVA: n sovellusliittymiä voidaan käyttää asiakaskäyttöön.
  • HBase tarjoaa kuoren kyselyjen suorittamiseen.

5. Eläintarhanhoitaja

Apache Zookeeper on keskitetty konfiguraation ylläpitopalvelu, se pitää kirjaa tiedoista, nimeää, se tarjoaa myös hajautettuja synkronointi- ja ryhmäpalveluita. Eläintarhanhoitaja on keskitetty arkisto, jota hajautetut sovellukset hyödyntävät siitä tiedon keräämisessä ja saamisessa. Se auttaa myös solmujen hallinnassa, ts. Liittymään tai jättämään solmu klusteriin. Se tarjoaa erittäin luotettavan tietorekisterin, kun muutama solmu on alhaalla.

Eläintarhanhoitajan ominaisuudet

  • Suorituskykyä voidaan parantaa jakamalla tehtäviä, jotka saavutetaan lisäämällä uusia koneita.
  • Se piilottaa jakelun monimutkaisuuden ja kuvaa itseään yhtenä koneena.
  • Muutaman järjestelmän vika ei vaikuta koko järjestelmään, mutta sen haitta voi johtaa osittaiseen tietojen menetykseen.
  • Se tarjoaa atomisuuden, eli tapahtuma on joko onnistunut tai epäonnistunut, mutta ei epätäydellisessä tilassa.

6. Flume

Apache Flume on työkalu, joka tarjoaa tiedon syöttämisen, joka voi kerätä, yhdistää ja siirtää valtavan määrän tietoja eri lähteistä HDFS: ään, HBaseen jne. Flume on erittäin luotettava ja konfiguroitavissa. Se on suunniteltu syöttämään streaming-tietoja verkkopalvelimelta tai tapahtumatietoja HDFS: lle, esimerkiksi se voi syödä twitter-tietoja HDFS: ään. Flume voi tallentaa tietoja mihin tahansa keskitettyyn tietovarastoon, kuten HBase / HDFS. Jos on tilanne, jossa datantuotto on nopeampaa kuin datanopeus voidaan kirjoittaa, niin flume toimii välittäjänä ja varmistaa datavirrat tasaisesti.

Ominaisuudet Flume

  • Se voi syödä verkkopalvelinten tietoja yhdessä tapahtumadattojen, kuten sosiaalisen median tietojen kanssa.
  • Flume-tapahtumat ovat kanavapohjaisia, ts. Ylläpidetään kahta viestiä, joista toinen on lähettämistä varten ja toinen vastaanottoa varten.
  • Vaakasuuntainen skaalaus on mahdollista virtauksessa.
  • Se on erittäin viallinen suvaitsevainen, koska kontekstuaalinen reititys on läsnä flumassa.

Johtopäätös - Hadoop-työkalut

Tässä artikkelissa olemme oppineet muutamasta Hadoop-työkalusta ja siitä, kuinka ne ovat hyödyllisiä tietomaailmassa. Olemme nähneet Hive ja Pig -sovelluksia, joita käytetään tietojen kyselyyn ja analysointiin, sqoop-tiedon siirtämiseen ja sujuvan tiedon siirtämiseen HDFS: ään.

Suositellut artikkelit

Tämä on opas Hadoop Tools -sovellukseen. Tässä keskustellaan Hadoopin erilaisista työkaluista niiden ominaisuuksilla. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -

  1. Hadoop-vaihtoehdot
  2. Hadoop-tietokanta
  3. SQL-merkkijonotoiminnot
  4. Mikä on Big Data

Luokka: