Selvitä parhaat 5 eroa Hadoopin ja MapReducen välillä

Ero Hadoopin ja MapReducen välillä

Hadoopin juuret juontavat juurensa vuoteen 2002, kun Dough Cutting työskenteli avoimen lähdekoodin projektissa nimeltään Nutch (jota käytettiin indeksoimaan verkkosivuja ja käyttämään indeksoituja verkkosivuja hakuun, sama asia kuin Google). Hänellä oli edessään skaalautuvuusongelmia sekä tallennuksen että tietojenkäsittelyn suhteen. Vuonna 2003 google julkaisi GFS: n (google tiedostojärjestelmä) ja vuonna 2004 Nutch loi NDFS: n (Nutch hajautettu tiedostojärjestelmä). Sen jälkeen kun Google ilmoitti MapReducen laskenta-aivoiksi lajittelualgoritmiensa takana, Dough pystyi ajamaan Nutchin NDFS: llä ja käyttämään MapReducea vuonna 2005 ja vuonna 2006 Hadoopin.

Hadoop ja MapReduce! Hadoop on avoimen lähdekoodin projektien, kuten Hadoop Common, Hadoop hajautettu tiedostojärjestelmä (HDFS), Hadoop YARN, Hadoop MapReduce, ekojärjestelmä. Hadoop sellaisenaan on avoimen lähdekoodin kehys valtavien tietojoukkojen tallentamiseksi ja käsittelemiseksi. Varastointia hoitaa HDFS ja käsittelystä huolehtii MapReduce. MapReduce puolestaan on ohjelmointimalli, jonka avulla voit käsitellä Hadoop-tietokantaan tallennettuja valtavia tietoja. Me ymmärrämme Hadoopin ja MapReducen yksityiskohtaisesti tässä viestissä.

Head to Head -vertailu Hadoop Vs MapReduce (Infographics)

Alla on viiden parhaan vertailun välillä Hadoop vs. MapReduce

Keskeiset erot Hadoop vs. MapReduce -sovellusten välillä

Seuraava ero on Hadoopin ja MapReducen välillä

Jos haluamme erottaa Hadoopin ja MapReducen maallikolla, voimme sanoa, että Hadoop on kuin auto, jossa sinulla on kaikki tarvittava etäisyyksien ajamiseen, mutta MapReduce on kuin auton moottori, joten ilman autoa moottori voi ' t on olemassa, mutta auton ulkopinta voi muuttua (muut DFS (hajautetut tiedostojärjestelmät)).
Hadoopin perusajatuksena on, että datan on oltava luotettavaa ja skaalautuvaa, luotettavaa, koska onnettomuuden tai verkkohäiriön tapauksessa tietojen on oltava käytettävissä koko ajan, ja tämä saavutetaan Hadoopin puitteissa, joissa käytetään nimisolmuja ja datasolmuja.
Jotkut perusideat datasolmuista ja nimisolmuista

Data-solmun ja nimisolmun arkkitehtuurin perusajatus on isäntä / orja-arkkitehtuuri, jossa yksi tallentaa datan sijainnin (nimi solmu) ja toinen tallentaa itse datan (datasolmu). Tiedot jaetaan 64mb: n paloiksi ja tallennetaan datalohkoihin, ja näiden rekisteriä ylläpidetään nimisolmussa. Luotettavuuden vuoksi tietoja replikoidaan oletusarvoisesti kolme kertaa. Skaalattavuudesta puhutaan, että laitteistoa voidaan lisätä liikkeellä ollessa, ja tämä auttaa lisäämään tallennustilaa ja muuttamaan järjestelmän skaalautuvaksi.
Nyt MapReducessa on kolme vaihetta
1. Karttavaihe
2. Shuffle Phase
3. Vähennä vaihetta

Otetaan esimerkki ymmärtää sitä paremmin. Ohjelmointikehyksenä olevalla MapReduce-ohjelmalla on myös hello world -ohjelma, mutta se tunnetaan MapReduce-ohjelmassa sanamääräohjelmana.

Word Count -ohjelma antaa meille sanan avain-arvoparit ja sen esiintymistiheyden kappaleessa / artikkelissa tai missä tahansa tietolähteessä. Otetaan alla esimerkkejä, jotta ymmärrämme se helposti.

Kuten näemme, meillä on kolme sanaa bussi, auto ja juna. Input-sarakkeessa on tietoja, kuten meillä on tietojoukossa, Output-sarakkeessa on tietoja välivaiheessa, jossa sekoitus tapahtuu.

Otetaan tässä jakaja pilkuna (, ) jakaa sanat. Jakaja voi olla pilkku tai välilyönti tai uusi rivi jne.

panos

Tiedot

caR, auto, auto, bussi, juna, bussi, juna, bussi, juna, bussi, buS, auto, bussi, auto, juna, auto, bussi, auto

ulostulo

Muunna toiseksi datajoukkoksi

(Avain, Value)

(Bussi, 1), (Auto, 1), (bussi, 1), (auto, 1), (juna, 1),

(auto, 1), (bussi, 1), (auto, 1), (juna, 1), (bussi, 1),

(JUNA, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(auto, 1), (BUS, 1), (JUNA, 1)

Ja yllä olevan välivaiheen lähtö annetaan pelkistimelle ja alapuolella on ohjelman lopullinen lähtö.

panos

(Kartta-toiminnon lähtö)

Sarja Tuples

(Bussi, 1), (Auto, 1), (bussi, 1), (auto, 1), (juna, 1),

(auto, 1), (bussi, 1), (auto, 1), (juna, 1), (bussi, 1),

(JUNA, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(auto, 1), (BUS, 1), (JUNA, 1)

ulostulo

Muuntaa pienemmäksi tuplsarjaksi

(BUS, 7),

(CAR, 7),

(Juna, 4)

Yksi Hadoopin tärkeimmistä eroista muihin isoihin tietojenkäsittelykehikkoihin nähden on, että Hadoop lähettää koodin (MapReduce-koodin) klustereihin, joihin tietoja tallennetaan, sen sijaan, että se lähettää tietoja koodiin, koska tietojoukot tulevat TB: ssä tai joskus PB: ssä se on työläs tehtävä.

Hadoop vs. MapReduce -vertailutaulukko

Vertailun perusteet	Hadoop	MapReduce
merkitys	Nimi “Hadoop” oli Doug Cuttingin pojan leluelefantin nimi. Hän nimitti tämän projektin nimellä “Hadoop”, koska sen lausuminen oli helppoa.	”MapReduce” -nimi syntyi itse toiminnon mukaan, joka on kartoitus ja pienentäminen avain-arvopareissa.
Konsepti	Apache Hadoop on ekosysteemi, joka tarjoaa ympäristön, joka on luotettava, skaalautuva ja valmis hajautettuun laskentaan.	MapReduce on tämän projektin osamoduuli, joka on ohjelmointimalli ja jota käytetään käsittelemään valtavia tietokokonaisuuksia, jotka istuvat HDFS: ssä (Hadoopin hajautettu tiedostojärjestelmä).
Edellytykset	Hadoop toimii työkaluissa HDFS (Hadoop Distributed File System)	MapReduce voi toimia HDFS / GFS / NDFS: llä tai missä tahansa muussa hajautetussa tiedostojärjestelmässä, esimerkiksi MapR-FS
Kieli	Hadoop on kokoelma kaikkia moduuleja, joten se voi sisältää myös muita ohjelmointi- / skriptikieliä	MapReduce kirjoitetaan periaatteessa Java-ohjelmointikielellä
puitteet	Hadoopilla ei ole vain tallennuskehystä, joka tallentaa tiedot, mutta myös nimisolmujen ja datasolmujen luomiseksi, sillä on myös muita kehyksiä, joihin kuuluu itse MapReduce.	MapReduce on ohjelmointikehys, joka käyttää avainten, arvojen kartoituksia tietojen lajitteluun / käsittelyyn

Alla oleva kuva auttaa erottamaan MapReducea Hadoopista.

MapReduce-kehys

Kuten yllä olevasta kuvasta voidaan nähdä, MapReduce on hajautettu käsittelykehys, kun taas Hadoop on kokoelma kaikkia kehyksiä.

Johtopäätös - Hadoop vs. MapReduce

Hadoop on avoimen lähdekoodin suosio, koska sitä voidaan käyttää vapaasti ja ohjelmoijat voivat muuttaa koodia tarpeidensa mukaan. Hadoop-ekosysteemiä on kehitetty jatkuvasti viime vuosina tehdäkseen ekosysteemistä mahdollisimman virheetön.

Maailman jatkuvasti muuttuvien tarpeiden myötä tekniikka muuttuu nopeasti ja muutosten seuraamisesta tulee vaikeaa. Kuukaudessa tuotetut tiedot kaksinkertaistuvat / kolminkertaistuvat, kun luet tämän artikkelin, ja tietojoukkojen nopeamman käsittelyn tarve johti moniin muihin ohjelmointikehyksiin, kuten MapReduce 2, Spark jne.

Suositellut artikkelit

Tämä on opas Hadoop vs MapReduce -sovellukseen, niiden merkitykseen, Head to Head -vertailuun, avainerot, vertailutaulukko ja johtopäätökset. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

Ero Hadoop vs. Redshift välillä
Selvitä 6 parasta eroa Apache Hadoopin ja Apache Stormin välillä
Vertailut Hadoop Vs SQL: n välillä
Tietoja MapReduce vs Spark -sovelluksesta
Hadoop vs Spark: Toiminnot
Laravel vs Codeigniter: Toiminnot