Johdatus AWS EMR: ään

AWS EMR tarjoaa monia toimintoja, jotka helpottavat meitä, jotkut tekniikat ovat:

  1. Amazon EC2
  2. Amazon RDS
  3. Amazon S3
  4. Amazon CloudFront
  5. Amazonin automaattinen skaalaus
  6. Amazonin lambda
  7. Amazonin punainen siirto
  8. Amazonin elastinen MapReduce (EMR)

Yksi tärkeimmistä AWS EMR: n tarjoamista palveluista, joita aiomme käsitellä, on Amazon EMR.

EMR, yleisesti nimeltään Elastinen Karttavähennys, tarjoaa helpon ja lähestyttävän tavan käsitellä suurempien datapalojen käsittelyä. Kuvittele iso data-skenaario, jossa meillä on valtava määrä tietoa ja suoritamme joukon toimintoja niiden yli, sanotaan esimerkiksi Map-Reduce-työn olevan käynnissä. Yksi Bigdata-sovelluksen tärkeimmistä ongelmista on ohjelman viritys, me Usein on vaikeaa ohjelmoida hienosäätöä siten, että kaikki varatut resurssit kulutetaan oikein. Tämän yllä olevan virityskertoimen vuoksi käsittelyyn kuluva aika kasvaa vähitellen. Elastinen kartta Vähentää Amazonin palvelua, on verkkopalvelu, joka tarjoaa puitteet, jotka hallitsevat kaikkia näitä isojen tietojen käsittelyyn tarvittavia ominaisuuksia kustannustehokkaalla, nopealla ja turvallisella tavalla. Klusterin luomisesta tiedon jakamiseen erilaisissa tapauksissa kaikkia näitä asioita hallitaan helposti Amazon EMR: n avulla. Tässä olevat palvelut ovat tilattavia, joten voimme hallita numeroita olemassa olevan tiedon perusteella, mikä tekee siitä kustannustehokkaan ja skaalautuvan.

Syyt AWS EMR: n käyttöön

Joten miksi AMR: n käyttö tekee siitä paremman muista. Me kohtaamme usein hyvin perusongelman, jossa emme pysty allokoimaan kaikkia klusterin kautta käytettävissä olevia resursseja mihinkään sovellukseen. AMAZON EMR huolehtii näistä ongelmista ja tietojen koon ja sovelluksen tarpeen perusteella osoittaa tarvittavat resurssit. Lisäksi olemme joustavia luonteeltaan voimme muuttaa sitä vastaavasti. EMR: llä on valtava sovellustuki, olipa Hadoop, Spark, HBase helpottaa tietojenkäsittelyä. Se tukee useita ETL-toimintoja nopeasti ja kustannustehokkaasti. Sitä voidaan käyttää myös MLIB: ään Sparkissa. Pystymme suorittamaan erilaisia ​​koneoppimisalgoritmeja sen sisällä. Olipa kyse eräajoista tai reaaliaikaisesta tiedonsiirrosta, EMR pystyy järjestämään ja käsittelemään molempia tietoja.

AWS EMR: n toiminta

Katsotaan nyt tätä kaaviota Amazon EMR-klusterista ja yritetään ymmärtää kuinka se todella toimii:

Seuraava kaavio kuvaa EMR: n klusterijakaumaa. Tarkistetaan tämä yksityiskohtaisesti:

1. Klusterit ovat keskeinen osa Amazon EMR -arkkitehtuuria. Ne ovat EC2-tapausten kokoelma, nimeltään Solmut. Jokaisella solmulla on omat roolinsa klusterissa, jota kutsutaan solmutyypiksi, ja roolien perusteella voimme luokitella ne kolmeen tyyppiin:

  • Pääsolmu
  • Ydinsolmu
  • Tehtäväsolmu

2. Pääsolmu, kuten nimestä voi päätellä, on isäntä, joka vastaa klusterin hallinnasta, komponenttien suorittamisesta ja datan jakamisesta solmujen välillä käsittelyä varten. Se vain seuraa, hallitaanko kaikkea kunnolla ja hyvin, ja toimiiko vikaantumisen varalta.

3. Ydinsolmu on vastuussa tehtävän suorittamisesta ja tietojen tallentamisesta HDFS: ään klusteriin. Ydinsolmu käsittelee kaikki käsittelyosat ja tiedot käsittelyn jälkeen asetetaan haluttuun HDFS-sijaintiin.

4. Tehtäväsolmun, joka on valinnainen, tehtävänä on suorittaa vain tehtävä, jolloin tietoja ei tallenneta HDFS: ään.

5. Aina töiden lähettämisen jälkeen meillä on useita tapoja valita, kuinka töiden tulee suorittaa. Koska klusterin lopettaminen työn päätyttyä pitkäaikaiseen klusteriin, joka käyttää EMR-konsolia ja CLI: tä, toimittaa vaiheet, meillä on kaikki etuoikeus tehdä niin.

6. Voimme suorittaa työn suoraan EMR: ssä yhdistämällä sen isäntäsolmuun käytettävissä olevien rajapintojen ja työkalujen kautta, jotka suorittavat töitä suoraan klusterissa.

7. Voimme myös suorittaa tietomme eri vaiheissa EMR: n avulla, meidän tarvitsee vain lähettää yksi tai useampi tilattu vaihe EMR-klusterissa. Tiedot tallennetaan tiedostona ja käsitellään peräkkäin. Aloittamalla se "Odottavasta tilasta valmiiseen tilaan" voimme jäljittää käsittelyvaiheet ja löytää virheet, jotka myös ovat kohdassa "Epäonnistuminen peruutettiin". Kaikki nämä vaiheet voidaan helposti jäljittää tähän.

8. Kun kaikki esiintymät on lopetettu, klusterin valmis tila saavutetaan.

Arkkitehtuuri AWS EMR: lle

EMR: n arkkitehtuuri esittelee itsensä tallennusosasta sovellusosaan.

  • Aivan ensimmäisessä kerroksessa on säilytyskerros, joka sisältää klusterimme kanssa käytettävät eri tiedostojärjestelmät. Olipa kyse sitten HDFS: stä EMRFS: ään paikallisiin tiedostojärjestelmiin, näitä kaikkia käytetään tietojen tallennukseen koko sovelluksen ajan. Välituotteiden välimuisti välitetään MapReduce-prosessoinnin aikana näiden EMR: n mukana toimitettujen tekniikoiden avulla.
  • Toinen kerros tulee klusterin Resurssienhallintaan. Tämä kerros vastaa resurssien hallinnasta klustereille ja solmuille sovelluksen yli. Tämä pohjimmiltaan auttaa hallintatyökaluina, jotka auttavat jakamaan tiedot tasaisesti klusterien yli ja asianmukaista hallintaa. EMR: n käyttämä oletusresurssien hallintatyökalu on Lanka, joka otettiin käyttöön Apache Hadoop 2.0: ssa. Se hallitsee keskitetysti resursseja useille tietojenkäsittelykehyksille. Se huolehtii kaikesta klusterin hyvin toimivuuden kannalta tarpeellisesta tiedosta solmujen terveydestä resurssien jakamiseen muistinhallinnan avulla.
  • Kolmas kerros on mukana tietojenkäsittelykehyksessä, tämä kerros vastaa tietojen analysoinnista ja käsittelystä. EMR: n tukemia on monia kehyksiä, joilla on tärkeä rooli rinnakkaisessa ja tehokkaassa tietojenkäsittelyssä. Jotkut puitteista, joita se tukee ja olemme tietoisia, ovat APACHE HADOOP, SPARK, SPARK STREAMING jne.
  • Neljäs kerros on mukana sovelluksessa ja ohjelmissa, kuten HIVE, PIG, suoratoistokirjasto, ML-algoritmit, joista on apua suurten tietojoukkojen käsittelyssä ja hallinnassa.

AWS EMR: n edut

Tarkastellaan nyt joitain EMR: n käytön eduista:

  1. Nopea: Koska kaikkia resursseja käytetään oikein, kyselyn käsittelyaika on suhteellisen nopeampi kuin muilla tietojenkäsittelyvälineillä on paljon selkeä kuva.
  2. Massatietojen käsittely: Ole suurempi datan koko. EMR pystyy käsittelemään valtavan määrän tietoja runsaassa ajassa.
  3. Minimaalinen tietojen menetys: Koska dataa jaetaan klusterin yli ja käsitellään samanaikaisesti verkon kautta, on olemassa minimaalinen mahdollisuus tietojen menetykseen ja hyvin, käsitellyn datan tarkkuus on parempi.
  4. Kustannustehokas: Koska se on kustannustehokas, se on halvempi kuin mikään muu käytettävissä oleva vaihtoehto, mikä tekee siitä vahvan teollisuuden käyttöön verrattuna. Koska hinnoittelu on vähemmän, voimme majoittaa suuret tietomäärät ja käsitellä niitä budjetin puitteissa.
  5. AWS integroitu: Se on integroitu kaikkiin AWS: n palveluihin, mikä tekee siitä helpon saatavuuden katon alla, joten kaikki tietoturva, varastointi, verkottuminen on integroitu yhteen paikkaan.
  6. Suojaus: Sen mukana tulee hämmästyttävä tietoturvaryhmä, joka hallitsee saapuvaa ja lähtevää liikennettä, ja myös IAM-roolien käyttö tekee siitä entistä turvallisemman, koska se sisältää useita käyttöoikeuksia, jotka tekevät tiedoista turvallisia.
  7. Seuranta ja käyttöönotto: Meillä on asianmukaiset seurantatyökalut kaikille EMR-klusterien yli käynnissä oleville sovelluksille, mikä tekee siitä läpinäkyvän ja helpon analysoitavalle osalle. Lisäksi se sisältää automaattisen käyttöönotto-ominaisuuden, jossa sovellus määritetään ja otetaan käyttöön automaattisesti.

EMR: llä on parempi valinta muuksi klusterin laskentamenetelmäksi on paljon enemmän etuja.

AWS EMR hinnoittelu

EMR: n mukana tulee hämmästyttävä hinnasto, joka houkuttelee kehittäjiä tai markkinoita sitä kohti. Koska siihen kuuluu tilaushinnoitteluominaisuus, voimme käyttää sitä hiukan tunnin välein ja klusterimme solmujen lukumäärää. Voimme maksaa sekunnin nopeuden jokaisesta käyttämästämme sekunnista vähintään minuutin ajan. Voimme myös valita esiintymiemme käytettäväksi varatuina tapauksina tai pistetapahtumina, paikalla säästämällä paljon kustannuksia.

Voimme laskea kokonaislaskun yksinkertaisella kuukausittaisella laskurilla alla olevasta linkistä: -

https://calculator.s3.amazonaws.com/index.html#s=EMR

Lisätietoja tarkeista hinnoittelutiedoista on Amazonin alla olevassa asiakirjassa: -

https://aws.amazon.com/emr/pricing/

johtopäätös

Yllä olevasta artikkelista näimme, kuinka EMR: ää voidaan käyttää suurten tietojen oikeudenmukaiseen käsittelyyn kaikilla resursseilla, joita käytetään tavanomaisesti.

EMR: n käyttöönotto ratkaisee tietojenkäsittelyn perusongelman ja vähentää prosessointiaikaa huomattavasti, koska se on kustannustehokas ja helppo ja kätevä käyttää.

Suositeltava artikkeli

Tämä on ollut opas AWS EMR: lle. Tässä keskustellaan johdannosta AWS EMR: ään sen työskentely- ja arkkitehtuurin lisäksi sekä eduista. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -

  1. AWS-vaihtoehdot
  2. AWS-komennot
  3. AWS-palvelut
  4. AWS-haastattelukysymykset
  5. AWS-tallennuspalvelut
  6. AWS: n 7 parasta kilpailijaa
  7. Luettelo Amazon Web Services -ominaisuuksista

Luokka: