Katsaus Install Hadoop -sovellukseen

Seuraava artikkeli Asenna Hadoop tarjoaa yleiskatsauksen yleisimmistä Hadoop-kehyksen avainmoduuleista ja vaiheittaisesta asennuksesta Hadoopille. Apache Hadoop on kokoelma ohjelmistoja, jotka mahdollistavat suurten tietojoukkojen ja jaetun tallennuksen käsittelemisen erityyppisten tietokonejärjestelmien klusterien välillä. Tällä hetkellä Hadoop on edelleen laajimmin käytetty big datan analytiikkaalusta (“Sanchita Lobo, kirjoittaja Analytics Training Blogissa”, toinen).

Hadoop-kehys

Apache Hadoop-kehys koostuu seuraavista avainmoduuleista.

  • Apache Hadoop Common.
  • Apache Hadoopin hajautettu tiedostojärjestelmä (HDFS).
  • Apache Hadoop MapReduce
  • Apache Hadoop YARN (vielä yksi resurssienhallinta).

Apache Hadoop Common

Apache Hadoop Common -moduuli koostuu jaetuista kirjastoista, joita käytetään kaikissa muissa moduuleissa, mukaan lukien avainten hallinta, yleiset I / O-paketit, metrikokoelman kirjastot ja apuohjelmat rekisteriä, tietoturvaa ja suoratoistoa varten.

HDFS

HDFS perustuu Google-tiedostojärjestelmään ja on rakennettu toimimaan edullisilla laitteistoilla. HDFS kestää vikoja ja on suunniteltu sovelluksiin, joissa on suuret tietojoukot.

MapReduce

MapReduce on luontainen rinnakkaisohjelmointimalli tietojenkäsittelyä varten ja Hadoop voi ajaa MapReduce-ohjelmia, jotka on kirjoitettu eri kielillä, kuten Java. MapReduce toimii jakamalla prosessointi karttavaiheeseen ja vähentää vaihetta.

Apache Hadoop YARN

Apache Hadoop YARN on ydinkomponentti, joka on resurssienhallinta- ja työn ajoitustekniikka Hadoopin hajautetussa käsittelykehyksessä.

Tässä artikkelissa käsittelemme Hadoop 2.7.4: n asennusta ja määritystä yhdelle solmuklusterille ja testaamme kokoonpanoa suorittamalla MapReduce-ohjelman, jota kutsutaan wordcount, laskeaksesi tiedostoon kuuluvien sanojen lukumäärän. Tarkastelemme edelleen muutama tärkeä Hadoop File System -komento.

Vaiheet Hadoopin asentamiseen

Seuraava on yhteenveto Apache Hadoopin kokoonpanoon liittyvistä tehtävistä.

Tehtävä 1: Hadoop-asennuksen ensimmäinen tehtävä sisälsi Virt OS -mallin määrittämisen, joka oli määritetty Cent OS7: llä. Hadoopin suorittamiseen tarvittavat paketit kuten Java SDK 1.8 ja Runtime Systems ladattiin, ja Java-ympäristömuuttuja Hadoopille määritettiin muokkaamalla bash_rc.

Tehtävä 2: Hadoop Release 2.7.4 -paketti ladattiin apachen verkkosivustolta ja uutettiin opt-kansioon. Mikä nimitettiin sitten uudelleen Hadoop-tiedostoksi, jotta sitä olisi helppo käyttää.

Tehtävä 3: Kun Hadoop-paketit on erotettu, seuraavaan vaiheeseen sisältyy ympäristömuuttujan määrittäminen Hadoop-käyttäjälle, jota seuraa Hadoop-solmun XML-tiedostojen määrittäminen. Tässä vaiheessa NameNode konfiguroitiin ytimessä site.xml ja DataNode konfiguroitiin hdfs-site.xml. Resurssienhallinta ja solmujen hallinta määritettiin lanka-site.xml-kohdassa.

Tehtävä 4: Palomuuri poistettiin käytöstä YARN- ja DFS-ohjelmien käynnistämiseksi. JPS-komentoa käytettiin tarkistamaan, ajavatko asiaankuuluvat demonit taustalla. Portin numero, jolla Hadoop voidaan käyttää, määritettiin http: // localhost: 50070 /

Tehtävä 5: Seuraavia muutamia vaiheita käytettiin Hadoopin tarkistamiseen ja testaamiseen. Tätä varten olemme luoneet väliaikaisen testitiedoston WordCount-ohjelman syöttöhakemistoon. Karttavähennysohjelmaa Hadoop-MapReduce-esimerkkejä2.7.4.jar käytettiin tiedostoon kuuluvien sanojen laskemiseen. Tulokset arvioitiin paikallismajoituksella ja toimitetun hakemuksen lokit analysoitiin. Kaikkia lähetettyjä MapReduce-sovelluksia voidaan katsella online-käyttöliittymässä, oletusporttinumero on 8088.

Tehtävä 6: Viimeisessä tehtävässä esittelemme joitain Hadoop File System -komentoja ja tarkistamme niiden käytöt. Näemme kuinka hakemisto voidaan luoda Hadoop-tiedostojärjestelmässä luetteloidaksesi hakemiston sisällön, sen koon tavuina. Näemme edelleen, kuinka tietty hakemisto ja tiedosto poistetaan.

Tulokset Hadoop-asennuksessa

Seuraava näyttää kunkin yllä olevan tehtävän tulokset:

Tehtävän 1 tulos

Uusi virtOS-kone, jossa on cenOS7-kuva, on määritetty suorittamaan Apache Hadoop. Kuvio 1 näyttää kuinka CenOS 7-kuva määritettiin virtuaalikoneessa. Kuva 1.2 näyttää JAVA-ympäristömuuttujan kokoonpanon .bash_rc-alueella.

Kuva 1: Virtuaalikoneen kokoonpano

Kuva 1.2: Java-ympäristömuuttujien kokoonpano

Tehtävän 2 tulos

Kuvassa 2 on esitetty tehtävä suorittaaksesi Hadoop 2.7.4 -paketin purkamisen valitaksesi kansion.

Kuva 2: Hadoop 2.7.4 -pakkauksen uutto

Tehtävän 3 tulos

Kuvio 3 näyttää Hadoop-käyttäjän ympäristömuuttujan kokoonpanon, Kuviot 3.1-3.4 esittävät Hadoop-määritykseen tarvittavien XML-tiedostojen kokoonpanon.

Kuva 3: Ympäristömuuttujan määrittäminen Hadoop-käyttäjälle

Kuva 3.1: ydin-site.xml-määritykset

Kuva 3.2: hdfs-site.xml -konfigurointi

Kuva 3.3: Mapred-site.xml-tiedoston kokoonpano

Kuva 3.4: lanka-site.xml-tiedoston kokoonpano

Tehtävän 4 tulos

Kuvio 4 näyttää jps-komennon käytön taustalla olevien asiaankuuluvien demonien tarkistamiseksi ja seuraava kuva näyttää Hadoopin online-käyttöliittymän.

Kuva 4: jps-komento käynnissä olevien demonien todentamiseksi.

Kuva 4.1: Hadoopin online-käyttöliittymän käyttäminen portissa http://hadoop1.example.com:50070/

Tehtävän 5 tulos

Kuvio 5 näyttää tuloksen MapReduce-ohjelmalle nimeltä wordcount, joka laskee tiedostoon kuuluvien sanojen määrän. Seuraavat pari kuvaa esittävät YARN-resurssienhallinnan online-käyttöliittymän toimitetulle tehtävälle.

Kuva 5: MapReduce-ohjelman tulokset

Kuva 5.1: Lähetetty Map-vähentää sovellus.

Kuva 5.2: Lokit lähetettyyn MapReduce-sovellukseen.

Tehtävän 6 tulos

Kuvio 6 näyttää kuinka luoda hakemisto Hadoop-tiedostojärjestelmään ja suorittaa luettelo hdfs-hakemistosta.

Kuva 6: Hakemiston luominen Hadoop-tiedostojärjestelmässä

Kuvassa 6.1 esitetään, kuinka tiedosto laitetaan Hadoopin hajautettuun tiedostojärjestelmään ja kuvassa 6.2 esitetään luotu tiedosto dirB-hakemistossa.

Kuva 6.1: Tiedoston luominen HDFS: ään.

Kuva 6.2: Uusi tiedosto luotu.

Seuraavat luvut osoittavat, kuinka luetteloida tiettyjen hakemistojen sisältö:

Kuva 6.3: dirA: n sisältö

Kuva 6.4: dirB: n sisältö

Seuraava kuva osoittaa, kuinka tiedosto- ja hakemistokoko voidaan näyttää:

Kuva 6.5: Näytä tiedoston ja hakemiston koko.

Hakemiston tai tiedoston poistaminen voidaan tehdä helposti -rm-komennolla.

Kuva 6.6: Tiedoston poistaminen.

johtopäätös

Big Data on ollut erittäin tärkeä rooli nykypäivän maailmanmarkkinoiden muotoilussa. Hadoop-kehys tekee tietoanalyytikon elämästä helppoa työskennellessään suurilla tietoaineistoilla. Apache Hadoopin kokoonpano oli melko yksinkertainen, ja online-käyttöliittymä tarjosi käyttäjälle useita vaihtoehtoja sovelluksen virittämiseksi ja hallitsemiseksi. Hadoopia on käytetty massiivisesti organisaatioissa tietojen varastointiin, koneoppimiseen ja tietojen varmuuskopiointiin. Suuren tietomäärän hallinta on ollut varsin kätevää Hadoopin hajautetun ympäristön ja MapReducen vuoksi. Hadoop-kehitys oli melko uskomatonta verrattuna relaatiotietokantoihin, koska niissä ei ole viritys- ja suoritusvaihtoehtoja. Apache Hadoop on käyttäjäystävällinen ja edullinen ratkaisu suurten tietojen tehokkaaseen hallintaan ja varastointiin. HDFS auttaa myös tietojen tallentamisessa.

Suositellut artikkelit

Tämä on opas asentaa Hadoop. Tässä keskustellaan Instal Hadoopin johdannosta, Hadoopin askel askeleelta asentamisesta sekä Hadoopin asennuksen tuloksista. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -

  1. Johdanto Hadoop-suoratoistoon
  2. Mikä on Hadoop-klusteri ja kuinka se toimii?
  3. Apache Hadoopin ekosysteemi ja sen komponentit
  4. Mitkä ovat Hadoop-vaihtoehdot?

Luokka: