Mikä on Hadoop-suoratoisto?

Hadoop-suoratoisto on Hadoop-jakelun mukana tuleva apuohjelma, jota voidaan käyttää ohjelmien suorittamiseen suuren datan analysoimiseksi. On olemassa useita kieliä, joita voidaan käyttää tämän suorittamiseen, kuten Java, Scala, Unix, Perl, Python ja monet muut. Apuohjelma auttaa meitä luomaan ja käyttämään karttaa vähentämään työpaikkoja, jos kaikki suoritettavat tai skriptit ovat karttaajia ja / tai pelkistimiä.

Määritelmä

Se on Hadoop-jakelu hyödyllisyydellä. Apuohjelma auttaa meitä luomaan ja suorittamaan tiettyjä MapReduce-töitä suoritettavan ohjelman tai komentosarjan avulla kartoittajana ja / tai pelkistimenä.

Ymmärtäminen

Hadoop-jakelun tarjoamia Java-apuohjelmia kutsutaan Hadoop-suoratoistoiksi. Apuohjelma on pakattu JAR-tiedostoon. Apuohjelman avulla voimme luoda ja suorittaa MapReduce-töitä suoritettavalla komentosarjalla. Lisäksi voimme luoda suoritettavia skriptejä mapper- ja reducer-toimintojen suorittamiseksi. Suoritettavat komentosarjat välitetään Hadoopin suoratoistolle komennolla. Kun skriptit on siirretty Hadoopin suoratoistoon, Hadoopin suoratoisto-apuohjelma luo kartan ja vähentää töitä ja toimittaa ne klusteriin. Näitä töitä voidaan myös seurata tällä apuohjelmalla.

Kuinka se toimii?

Karttaajalle ja pelkistimelle määritetty komentosarja toimii seuraavasti:

Kun mapper-skripti on alustettu kokonaan, se käynnistää skriptin esiintymän, jolla on erilaiset prosessitunnukset. Karttaaja-tehtävä suorittamisen aikana vie syöttörivit ja välittää sen normaalituloon. Samanaikaisesti karttaaja kerää prosessin standardilähdön lähdöt. Se muuntaa jokaisen rivin avain-arvo-pariksi. Avain-arvo-pareparit kerätään sitten tulosteena mapperista. Avainarvopari valitaan ensimmäisen välilehden merkin perusteella. Rivin osa alkuperäiseen välilehteen asti valitaan avaimeksi, kun taas loppu rivistä valitaan arvokas osa. Jos välilehteä ei ole rivillä, avainriviksi valitaan kokonaisrivi ja riville ei ole arvo-osaa. Tätä voidaan säätää liiketoiminnan tarpeiden mukaan.

Hadoop-suoratoiston käyttö

Sitä käytetään reaaliaikaiseen tiedonkeruuseen, jota voidaan käyttää erilaisissa reaaliaikaisissa sovelluksissa. On olemassa erilaisia ​​reaaliaikaisia ​​sovelluksia, kuten osakekantojen katselu, osakemarkkina-analyysi, kertova säätiedotus, liikennehälytykset, jotka tehdään Hadoopin suoratoistoa käyttämällä.

Hadoop-suoratoiston toiminta

Alla on yksinkertainen esimerkki Hadoopin suoratoiston toiminnasta:

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper org.apache.hadoop.mapred.lib.IdentityMapper \
-reducer /bin/wc

Syöttökomentoa käytetään syöttöhakemiston tarjoamiseen, kun lähtökomentoa käytetään tuottama hakemistoon. Mapper-komentoa käytetään määrittämään suoritettava mapper-luokka, kun taas reducer-komentoa käytetään määrittämään suoritettava reducer-luokka.

Hadoop-suoratoiston edut

Alla on Hadoopin suoratoiston edut:

1. Saatavuus

Tämä ei vaadi erillisen erillisen ohjelmiston asentamista ja hallintaa. On myös muita työkaluja, kuten sika, pesä, jotka voidaan asentaa. Minua täytyy hallita erikseen.

2. Oppiminen

Se ei vaadi uusien tekniikoiden oppimista. Hadoop-suoratoistoa voidaan hyödyntää minimoimalla Unix-taitoja tietojen analysointiin.

3. Vähennä kehitysaikaa

Se vaatii mapper- ja pelkistinkoodien kirjoittamisen samalla, kun kehitetään streaming-sovelluksia Unixissä, kun taas saman työn tekeminen Java MapReduce -sovelluksella on monimutkaisempaa ja se on ensin koottava, sitten testattava, sitten pakattava, sitten vietävä JAR-tiedosto ja suoritettava.

4. Nopeampi muuntaminen

Tietojen muuntaminen yhdestä muodosta toiseen Hadoop-suoratoiston avulla vie hyvin vähän aikaa. Voimme käyttää sitä tietojen muuntamiseen tekstitiedostosta sekvenssitiedostoksi ja sitten taas sekvenssitiedostosta tekstitiedostoksi ja moniksi muiksi. Tämä voidaan saavuttaa käyttämällä Hadoop-suoratoiston syöttömuoto- ja lähtömuotoasetuksia.

5. Testaus

Tulo- ja lähtötiedot voidaan testata nopeasti käyttämällä Hadoopin suoratoistoa Unix- tai Shell Script -sovelluksella.

6. Vaatimus yritykselle

Yksinkertaisiin liiketoimintavaatimuksiin, kuten yksinkertaisiin suodatustoimintoihin ja yksinkertaisiin yhdistämistoimintoihin, voimme käyttää tätä Unixin kanssa.

7. Suorituskyky

Hadoop-suoratoistoa käyttämällä saadaan parempi suorituskyky työskennellessään suoratoistotietojen kanssa. Hadoop-suoratoistolla on myös useita haittoja, joihin puututaan käyttämällä muita Hadoop-paketin työkaluja, kuten Kafka, flume, kipinä.

Miksi tarvitsemme Hadoop-suoratoistoa?

Se auttaa reaaliaikaisessa tietoanalyysissä, joka on paljon nopeampaa käyttämällä MapReduce-ohjelmointia, joka toimii usean solmun klusterissa. On olemassa erilaisia ​​tekniikoita, kuten kipin Kafka ja muut, jotka auttavat reaaliaikaisessa Hadoopin suoratoistossa.

Kuinka tämä tekniikka auttaa sinua uran kasvussa?

Nykyään kaikki suuret yritykset muuttavat Hadoopiin tietojen analysointia varten, ja monet niistä voivat tarvita reaaliaikaisen tiedon analysointia. Reaaliaikaisen tiedon käytön ja saman päivä päivältä tapahtuvan käsittelyn kysyntä ja tämä tekniikka luo paljon tilaa henkilökohtaisen uran kasvulle.

johtopäätös

Se tarjoaa valtavan määrän etuja erilaiselle reaaliaikaiselle tietojenkäsittelylle streaming-dataa käyttämällä.

Suositellut artikkelit

Tämä on opas Hadoopin suoratoistoon. Tässä keskustellaan Hadoop Streaming -sovelluksen määritelmästä, käsitteestä, eduista ja haitoista. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme ja oppia lisää-

  1. Mikä on Hadoop-klusteri?
  2. Mikä on tiedon louhinta?
  3. Mikä on datan visualisointi
  4. Mikä on tietojen mallintaminen?
  5. Kafka-työkalujen täydellinen opas

Luokka: