Ero MapReducen ja Sparkin välillä

Map Reduce on avoimen lähdekoodin kehys tietojen kirjoittamiseen HDFS: ään ja HDFS: ssä olevan strukturoidun ja jäsentämättömän tiedon käsittelemiseen. Karttavähennys rajoittuu eräkäsittelyyn, ja muut Spark pystyy suorittamaan mitä tahansa käsittelyä. SPARK on itsenäinen prosessointikone reaaliaikaiseen prosessointiin, joka voidaan asentaa mihin tahansa hajautettuun tiedostojärjestelmään, kuten Hadoop. SPARK tarjoaa suorituskyvyn, joka on 10 kertaa nopeampi kuin Map Reduce levyllä ja 100 kertaa nopeampi kuin Map Reduce muistissa olevassa verkossa.

SPARK-tarve

  • Iteratiivinen analyysi: Karttavähennys ei ole yhtä tehokas kuin SPARK ratkaistakseen iteratiivista analysointia vaativat ongelmat, koska sen on mentävä levylle jokaisen iteraation yhteydessä.
  • Interaktiivinen analyysi: Karttavähennystä käytetään usein suorittamaan ad-hoc-kyselyitä, joille sen on päästävä levymuistiin, joka taas ei ole yhtä tehokas kuin SPARK, koska viimeksi mainittu viittaa nopeampaan muistiin.
  • Ei sovellu OLTP: lle: Koska se toimii eräkeskeisessä kehyksessä, se ei sovellu suureen määrään lyhyitä tapahtumia.
  • Ei sovellu kuvaajalle : Apache Graph -kirjasto käsittelee kuvaajaa, joka lisää monimutkaisuutta Map Reduce -sovellukseen.
  • Ei sovellu triviaalioperaatioille: Suodattimen ja liittymisen kaltaisille operaatioille joudumme ehkä kirjoittamaan työt uudelleen, mikä muuttuu monimutkaisemmaksi avain-arvomallin vuoksi.

Head to Head -vertailu MapReduce vs Spark (Infographics)

Alla on 15 suosituinta eroa MapReducen ja Sparkin välillä

Tärkeimmät erot MapReduce vs Spark -sovelluksen välillä

Alla on pisteluettelot, kuvaavat tärkeimmät erot MapReducen ja Sparkin välillä:

  • Spark sopii reaaliaikaisesti, koska se prosessoi muistissa, kun taas MapReduce on rajoitettu eräkäsittelyyn.
  • Sparkilla on RDD (Resilient Distributed Dataset), joka antaa meille korkean tason operaattoreita, mutta Map vähentää meidän täytyy koodata jokainen toiminta, mikä tekee siitä suhteellisen vaikeaa.
  • Spark voi käsitellä kuvaajia ja tukee koneoppotyökalua.
  • Alla on ero MapReduce vs Spark ekosysteemin välillä.

Esimerkit, joissa MapReduce vs Spark ovat sopivia, ovat seuraavat

Spark: Luottokorttipetosten havaitseminen

MapReduce: Säännöllisten raporttien laatiminen, jotka vaativat päätöksentekoa.

MapReduce vs Spark -vertailutaulukko

Vertailun perusteetMapReduceKipinä
puitteetAvoimen lähdekoodin kehys tietojen kirjoittamiseen HDFS: ään ja HDFS: ssä olevan strukturoidun ja jäsentämättömän datan käsittelemiseen.Avoimen lähdekoodin kehys nopeampaan ja yleiskäyttöiseen tietojenkäsittelyyn
NopeusKartta-Vähennä prosessoida (lukea ja kirjoittaa) tietoja levyltä, jotta vuoto on hidasta verrattuna Sparkiin.

Spark on vähintään 10X nopeampi levyllä ja 100X nopeampi muistissa kuin Map Reduce.
vaikeusJokainen prosessi on koodattava / käsiteltävä.Koska RDD (Resilient Distributed Dataset) on saatavana, se on helppo ohjelmoida.
ReaaliaikaEi sovellu OLTP-tapahtumaan vain erämoodilleSe pystyy käsittelemään reaaliaikaista käsittelyä. SPARK-suoratoiston käyttäminen.
ViiveKorkean tason viiveen laskennallinen kehysMatalan tason viiveen laskennallinen kehys.
VikasietoisuusPäädemonit tarkistavat orjademonien syke ja jos orjademonit epäonnistuvat, masterdemonit ajoittavat kaikki odottavat ja käynnissä olevat toiminnot toiselle orjalle.RDD: t tarjoavat vikasietoisuuden SPARKille. Ne viittaavat tietokokonaisuuteen, joka on ulkoisessa tallennuksessa, kuten (HDFS, HBase), ja toimivat samanaikaisesti.
ajastimellaMap Reduce -sovelluksessa käytämme ulkoista ajastinta, kuten Oozie.Koska SPARK työskentelee muistilla tapahtuvan tietojenkäsittelyn kanssa, se toimii omana aikatauluttajana.
KustannusMap Reduce on suhteellisen halvempaa kuin SPARK.Koska se toimii muistissa, se vaatii paljon RAM-muistia, mikä tekee siitä suhteellisen kalliimman.
Alusta kehitettyMap Reduce on kehitetty Java-sovelluksella.SPARK on kehitetty Scalaa käyttämällä.
Kieli tuettuMap Reduce tukee periaatteessa C, C ++, Ruby, Groovy, Perl ja Python.Spark tukee Scala, Java, Python, R, SQL.
SQL-tukiMap Reduce suorittaa kyselyitä käyttämällä pesän kyselykieltä.Sparkilla on oma kyselykieli, joka tunnetaan nimellä Spark SQL.
skaalautuvuusKartan pienentämisessä voimme lisätä jopa n määrää solmuja. Suurimmalla Hadoop-klusterilla on 14000 solmua.Myös Sparkiin voimme lisätä n määrän solmuja. Suurimmassa Spark-klusterissa on 8000 solmua.
KoneoppiminenMap Reduce tukee Apache Mahout -työkalua koneoppimiseen.Spark tukee MLlib-työkalua koneoppimiseen.
välimuistiaKartta pienentäminen ei pysty välimuistiin muistitiedoissa, joten se ei ole niin nopea kuin Spark.Spark välimuisti tallentaa muistitiedot toistoja varten, joten se on erittäin nopea verrattuna Map Reduce -sovellukseen.
turvallisuusMap Reduce tukee enemmän tietoturvaprojekteja ja ominaisuuksia verrattuna SparkiinKipinäturvallisuus ei ole vielä kypsynyt, kuten Map Reduce

Johtopäätös - MapReduce vs Spark

Edellä mainitun MapReducen ja Sparkin välisen eron perusteella on melko selvää, että SPARK on paljon edistyneempi laskentamoottori verrattuna Map Reduceen. Spark on yhteensopiva minkä tahansa tyyppisten tiedostomuotojen kanssa ja myös melko nopeampaa kuin Map Reduce. Lisäksi kipinällä on myös kuvaajan käsittely- ja koneoppimisominaisuuksia.

Yhtäältä Map Reduce rajoittuu eräkäsittelyyn ja toisella Spark pystyy suorittamaan minkä tahansa tyyppisen prosessoinnin (erä, interaktiivinen, iteratiivinen, suoratoisto, kuvaaja). Suuren yhteensopivuuden vuoksi Spark on Data Scientistin suosikki ja korvaa sen vuoksi Map Reduce ja kasvaa nopeasti. Mutta silti meidän on tallennettava tiedot HDFS: ään ja tarvitsemme joskus myös HBasea. Joten meidän täytyy ajaa sekä Spark että Hadoop saadaksesi parhaan mahdollisen kuvan.

Suositellut artikkelit:

Tämä on opas MapReduce vs Spark -ohjelmaan, niiden merkitykseen, Head to Head -vertailuun, avainerot, vertailutaulukko ja johtopäätökset. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. 7 tärkeätä asiaa Apache Sparkista (opas)
  2. Hadoop vs Apache Spark - Mielenkiintoisia asioita, jotka sinun täytyy tietää
  3. Apache Hadoop vs Apache Spark | 10 parasta vertailua, jotka sinun on tiedettävä!
  4. Kuinka MapReduce toimii?
  5. Teknologian ja liike-elämän analytiikan yhdistelmä

Luokka: