Mikä on MapReduce Hadoopissa

MapReduce on Hadoopin kehys, jota käytetään käsittelemään rinnakkain valtavia määriä tietoja suurista hyödykelaitteistojen klustereista luotettavalla tavalla. Hadoop on avoimen lähdekoodin projekti, jonka tarjoaa Apache-ohjelmistoäätiö. Hadoop käytti analysointia nopeasti ja luotettavasti sekä jäsennellylle että jäsentelemättömälle tiedolle. Hadoop pystyy käsittelemään erittäin suuria tietojoukkoja ja joka voi olla sekä jäsenneltyä tietoa että jäsentämätöntä dataa, joka tosiasiallisesti liittyy suureen dataan. Hadoop-kehys, jonka avulla sovellus voi tallentaa tietoja hajautetussa muodossa ja prosessoida suuria tietojoukkoja tietokoneiden klusterien yli käyttämällä yksinkertaista ohjelmointimallia, ts. Map Reduce, eli toisin sanoen voidaan kutsua Map Reduce -sovellusta prosessointiin käytettäväksi ohjelmointimalliksi valtava määrä tietoa jakautuneena klustereiden lukumäärään. Hadoop voi skaalata yksittäisistä palvelimista tuhansiksi laskusolmuiksi tai koneiksi, joita kukin käyttää laskentaan ja tallennukseen.

Apache Hadoop -projekti sisältää useita alaprojekteja seuraavasti:

  • Hadoop Common: Hadoop Common, jossa on apuohjelmia, jotka tukevat muita Hadoop-alaprojekteja.
  • Hadoopin hajautettu tiedostojärjestelmä (HDFS): Hadoopin hajautettu tiedostojärjestelmä tarjoaa pääsyn hajautettuun tiedostoon sovellustietoihin.
  • Hadoop MapReduce: Hadoop MapReduce on ohjelmistokehys suurten hajautettujen tietojoukkojen prosessoimiseksi laskentaklustereissa.
  • Hadoop YARN: Hadoop YARN on kehys resurssien hallintaan ja työn ajoittamiseen.

Kuinka MapReduce Hadoopissa tekee työskentelystä niin helppoa?

MapReduce on helppo skaalata tietojenkäsittely satojen tai tuhansien klusterikoneiden kanssa. MapReduce-malli toimii tosiasiassa kahdessa vaiheessa nimeltään map and reduction ja prosessointi kutsutaan mapper- ja reducer-nimiksi. Kun kirjoitamme MapReduce -sovelluksen sovellukseksi, sovelluksen skaalaaminen ylöspäin kerrottamalla useita kertoja tai jopa useita tuhansia klustereita on pelkkä konfiguraatiomuutos. Tämä MapReduce-mallin ominaisuus on houkutellut monet ohjelmoijat käyttämään sitä.

Kuinka MapReduce Hadoopissa toimii?

MapReduce-ohjelma suoritetaan pääasiassa neljässä vaiheessa:

  1. Syöttö jakautuu
  2. Kartta
  3. sekoittaa
  4. Vähentää

Nyt näemme jokaisen vaiheen, kuinka ne toimivat.

1. Karttavaihe-

Tämä vaihe on yhdistelmä syöttöjako- ja Kartta-vaiheista. Karttavaiheessa lähdetiedosto välitetään rivi riviltä. Ennen kuin tulo siirtyy Kartta-toimintoon, tulo jaetaan pieneen kiinteään kokoon, nimeltään Tulonjako. Syöttöjako on syötepala, jonka yksi kartta voi kuluttaa. Karttavaiheessa jokainen jaettu data siirretään mapper-toimintoon, sitten mapper-toiminto käsittelee datan ja sitten arvot. Yleensä kartta tai karttaajan työn syöttötiedot ovat tiedoston tai hakemiston muodossa, joka tallennetaan Hadoop-tiedostojärjestelmään (HDFS).

2. Vähennä askel-

Tämä vaihe on yhdistelmä sekoitusvaiheesta ja pienennästä. Pienennys- tai vähentämistoiminto ottaa tiedot, jotka ovat seurausta karttatoiminnosta. Käsittelyn jälkeen pelkistämällä toiminto tuottaa uuden joukon tuloksia, jotka taas tallentuvat takaisin HDFS: ään.

Hadoop-puitteissa ei ole varmaa, että jokainen klusteri suorittaa minkä tehtävän joko Kartta tai Pienennä tai sekä Kartta että Pienennä. Joten Kartta- ja Pienennä-tehtävien pyyntö tulisi lähettää klusterin asianmukaisille palvelimille. Hadoop-kehys itse hallinnoi kaikkia tehtäviä, jotka liittyvät työn myöntämiseen, työn suorittamisen tarkistamiseen, datan hakemiseen HDFS: stä, tietojen kopiointiin solmujen klusteriin ja niin edelleen. Hadoop-järjestelmässä laskenta tapahtuu pääasiassa solmuissa, samoin kuin solmukohtainen data, mikä vähentää verkkoliikennettä.

Joten MapReduce-kehys on erittäin hyödyllinen Hadoop-kehyksessä.

MapReducen edut

  1. Skaalautuvuus - MapReduce, joka tekee Hadoopista erittäin skaalautuvan, koska se mahdollistaa suurten tietojoukkojen tallentamisen jaettavassa muodossa useille palvelimille. Koska se on jakautunut useille, se voi toimia rinnakkain.
  2. Kustannustehokas ratkaisu - MapReduce tarjoaa erittäin kustannustehokkaan ratkaisun yrityksille, joiden on tallennettava kasvava data ja käsiteltävä tietoja erittäin kustannustehokkaalla tavalla, mikä on nykypäivän liiketoiminnan tarve.
  3. Joustavuus - MapReduce tekee Hadoopista erittäin joustavan eri tietolähteille ja jopa erityyppisille tiedoille, kuten jäsennellylle tai jäsentämättömälle tiedolle. Joten se tekee erittäin joustavasta käyttää jäsenneltyä tai jäsentämätöntä tietoa ja käsitellä niitä.
  4. Nopea - kuten Hadoop-tallennustiedot hajautetussa tiedostojärjestelmässä, jolla myös tietojen tallennus klusterin paikalliselle levylle ja MapReduce-ohjelmat sijaitsevat yleensä samoissa palvelimissa, mikä mahdollistaa tietojen nopeamman käsittelyn, koska niitä ei tarvitse käyttää muiden palvelimien tiedot.
  5. Rinnakkaiskäsittely - Koska Hadoop-tallennustiedot hajautetussa tiedostojärjestelmässä ja MapReduce-ohjelman toiminta on sellainen, että se jakaa tehtävien tehtäväkartan ja pienentämisen ja voi suorittaa samanaikaisesti. Ja taas rinnakkaisen suorituksen takia se lyhentää koko ajoaikaa.

Skills

Hadoopin MapReducen vaaditut taidot ovat hyvät Java-ohjelmointitiedot (pakollinen), Linux-käyttöjärjestelmä ja SQL-kyselyt.

Hadoopin MapReducen laajuus

Hadoopin MapReduce on nopeasti kasvava kenttä, kun iso tietokenttä kasvaa, joten MapReduce Hadoopin laajuus on tulevaisuuden lupaava, koska jäsennellyn ja jäsentämättömän tiedon määrä kasvaa räjähdysmäisesti päivä päivältä. Sosiaalisen median alustoilla syntyy paljon jäsentämätöntä tietoa, joka voidaan louhia saadaksesi todellisia oivalluksia eri aloille.

johtopäätös

  • MapReduce on Hadoopin kehys, jota käytetään käsittelemään rinnakkain valtavia määriä tietoja suurista hyödykelaitteistojen klustereista luotettavalla tavalla.
  • Apache Hadoop -projekti sisältää useita alaprojekteja kuten Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
  • Karttavaiheessa jokainen jaettu data siirretään mapper-toimintoon, sitten mapper-toiminto käsittelee datan ja sitten lähtöarvot.
  • Pienennys- tai vähennystoiminto ottaa vastaan ​​tiedot, jotka ovat seurausta karttatoiminnosta.
  • MapReduce-edut luetellaan nimellä Skaalautuvuus, Kustannustehokas ratkaisu, Joustavuus, Nopea, Rinnakkaiskäsittely.

Suositellut artikkelit

Tämä on opas siihen, mikä on MapReduce Hadoopissa. Tässä keskustelimme Hadoopissa MapReducen komponenteista, työskentelystä, taidoista, urakehityksestä ja eduista. Voit myös käydä läpi muut ehdotetut artikkelimme saadaksesi lisätietoja

  1. Mikä on algoritmi?
  2. Erot Hadoop vs. MapReduce välillä
  3. Mikä on Azure?
  4. Mikä on Big Data Technology?
  5. Kuinka MapReduce toimii

Luokka: