Johdatus Hadoop-ekosysteemiin
Apache Hadoop on avoimen lähdekoodin järjestelmä, jolla voidaan luotettavasti tallentaa ja käsitellä paljon tietoa monien hyödykkeiden välillä. Hadoop on kirjoitettu ensimmäisessä kirjoituksessa ja julkaistu lokakuussa 2013 nimellä Google File System. Tuolloin Yahoossa työskennellyt Doug Cutting esitteli nimen Hadoop Ecosystem poikansa lelu-norsun nimen perusteella. Jos tarkastellaan Apache Hadoopin pääydintä, niin ensinnäkin se voi tarkastella tallennusosaa, joka tunnetaan nimellä Hadoop Distributed File System (HDFS), ja toiseksi käsittelyosa, joka tunnetaan nimellä Map Reduce Programming module. Hadoop tosiasiallisesti jakaa yhden valtavan tiedoston ja tallentaa ne useisiin solmuihin klusterin poikki.
Hadoop-ekosysteemin käsite
Apache Hadoop -kehys pitää pääosin alla moduuleja:
- Hadoop Common: sisältää kaikki Hadoop-moduulin käyttämiseen tarvittavat kirjastot ja apuohjelmat.
- Hadoopin hajautettu tiedostojärjestelmä (HDFS): Se on yksi hajautetuista tiedostojärjestelmistä, joka auttaa tallentamaan valtavan määrän tietoja useisiin tai hyödykekoneisiin. Tarjoa myös suuri hyöty kaistanleveyden tapauksessa, se tuotti yleensä erittäin suuren kaistanleveyden klusterin tyyppisissä aggregaateissa.
- Hadoop-lanka: Se otettiin käyttöön vuonna 2012. Se on pääasiassa johdettu resurssien hallintaan kaikissa hyödykejärjestelmissä jopa klusterissa. Resurssikapasiteetin perusteella se jakoi tai ajoittaa käyttäjän sovelluksen vaatimuksen mukaisesti.
- Hadoop MapReduce: Se auttaa pääasiassa käsittelemään suuren mittakaavan tietoja karttaa pienentävän ohjelmointimenetelmän avulla.
Apache Hadoop auttaa aina vähentämään tietotekniikkakustannuksia käsittelemällä ja tallentamalla valtavia tietoja älykkäästi. Koska Apache Hadoop on avoimen lähdekoodin ja laitteisto on erittäin yleisesti saatavilla, se auttaa meitä aina käsittelemään IT-kustannusten asianmukaista vähentämistä.
Avoimen lähdekoodin ohjelmisto + hyödykelaitteisto = IT-kustannusten alennus
Esimerkiksi, jos aiomme päivittäin vastaanottaa 942787 tiedostoa ja hakemistoa, jotka vaativat 4077936 lohkoa, yhteensä 5020723 lohkoa. Joten jos konfiguroimme vähintään 1, 46 PB-kapasiteettia, niin kuormituksen yläpuolella tapahtuvaan käsittelyyn hajautettu tiedostojärjestelmä käyttää 1, 09 PB: tä, mikä tarkoittaa keskimäärin 74, 85% koko konfiguroidusta kapasiteetista, kun taas otamme huomioon 178 elävää solmua ja 24 kuollutta solmua.
Hadoop-ekosysteemi, joka on suunniteltu pääasiassa suurten tietojen tallentamiseen ja käsittelemiseen, joilla on yleensä joitain tärkeimpiä ominaisuuksia, kuten alla:
- tilavuus
Volyymi tarkoittaa tosiasiallisesti tallennettujen ja tuotettujen tietojen kokoa. Riippuu määritetyn datan koosta, tietojoukko on iso data vai ei.
- lajike
Erilaisuus tarkoittaa käytetyn datan luonnetta, rakennetta ja tyyppiä.
- Nopeus
Nopeus tarkoittaa tietyn kehitysprosessivirran aikana tallennetun ja tuotetun datan nopeutta.
- totuudenmukaisuus
Totuudenmukaisuus tarkoittaa kaapatun tiedon laatua ja auttaa myös data-analyysiä saavuttamaan haluttu tavoite.
HDFS on pääasiassa suunniteltu tallentamaan erittäin suuri määrä tietoa (teratavua tai petatavua) useille koneille klusterissa. Se ylläpitää aina joitain yleisiä ominaisuuksia, kuten tietojen luotettavuutta, toimii hyödykelaitteistossa, käyttämällä lohkoja tiedoston tai tiedoston osan tallentamiseen, 'kirjoita lukemalla monta' -mallia.
Seuraava HDFS-arkkitehtuuri käsitteellä nimisolmu ja datasolmu.
Nimesolmun (päällikön) vastuu:
- hallitsee tiedostojärjestelmän nimitilaa
- ylläpitää klusterin kokoonpanoa
- Vastuu replikoinnin hallinnasta
Tietosolmun (orjat) vastuu:
- Tallenna tiedot paikallisessa tiedostojärjestelmässä
- Ilmoita määräajoin nimisolmulle syke
HDFS-kirjoitusoperaatio:
Hadoop seuraa alla olevia vaiheita minkä tahansa suuren tiedoston kirjoittamiseksi:
- Luo tiedosto ja päivitä FS-kuva saatuaan yhden tiedoston kirjoituspyynnön mistä tahansa HDFS-asiakkaasta.
- Hanki lohkon sijainnin tai datasolmun yksityiskohdat nimet solmusta.
- Kirjoita paketti yksittäisillä datasolmuilla rinnakkain.
- Vahvista paketin kirjoittamisen loppuunsaattaminen tai hyväksyminen ja lähetä tiedot takaisin Hadoop-asiakkaalle.
HDFS-lohkon replikointiputki:
- Asiakas hakee Namenode-luettelosta Datanodeja, jotka isännöivät kyseisen lohkon jäljennöstä
- Sitten asiakas huuhtelee datalohkon ensimmäiseen Datanodiin
- Ensimmäinen Datanode vastaanottaa lohkon, kirjoittaa sen ja siirtää sen putkilinjan seuraavaan datasolmuun
- Kun kaikki replikat on kirjoitettu, asiakas siirtyy tiedoston seuraavaan lohkoon
HDFS-vikatoleranssi:
Yksi datasolmu on ollut yhtäkkiä alhaalla, siinä tapauksessa HDFS pystyy hallitsemaan kyseisen skenaarion automaattisesti. Ensinnäkin, kaikki nimisolmut vastaanotetaan aina yksi syke jokaiselta datasolmulta, jos jostain syystä se menetti yhden sykkeen yhdeltä datasolmulta ottaen huomioon saman datasolmun kuin alaspäin, ryhdytään välittömästi toimiin kaikkien jäljellä olevien solmujen lohkojen automaattiseksi toistamiseksi välittömästi replikoinnin tyydyttämiseksi. tekijä.
Jos nimissolmu havaitsee yhden uuden klusterissa olevan käytettävissä olevan datasolmun, se tasapainottaa välittömästi kaikki lohkot, mukaan lukien lisätty datasolmu.
Nyt jotenkin nimisolmun menetys tai epäonnistuminen, niin myös varmuussolmu, jolla on yksi nimissolmun FS-kuva, toistaa kaikki FS-operaatiot välittömästi ja ylöspäin nimissolmun vaatimuksen mukaisesti. Mutta siinä tapauksessa vaaditaan manuaalinen interventio, ja koko Hadoop-ekosysteemikokoonpano on alhaalla pari kertaa uuden nimösolmun perustamiseksi uudelleen. Joten tässä tapauksessa nimisolmu voi olla yhden pisteen virhe, jotta vältetään tämä skenaario HDFS-federaatio esittelee useita klusteriryhmiä, jotka muodostavat nimisolmun, ja ZooKeeper voi hallita välittömästi yhden vaihtoehtoisen nimisolmun vaatimuksen mukaisesti.
Esimerkkejä Hadoop-ekosysteemistä
Koko Hadoop-ekosysteemiesimerkki voidaan selittää oikein alla olevassa kuvassa:
Tiedot voivat tulla mistä tahansa lähteestä, kuten Data Warehouse, Managed Document Repository, File Shares, Normaali RDMS-tietokanta tai pilvipalvelu tai ulkoiset lähteet. Kaikki nämä tiedot saapuivat HDFS: ään rakenteellisesti tai ei-rakenteellisesti tai osittain rakenteellisesti. HDFS tallentaa kaikki nämä tiedot hajautetulla tavalla, mikä tarkoittaa tallentamista hajautettuun hyödykejärjestelmään erittäin älykkäästi.
johtopäätös
Hadoop-ekosysteemi on suunniteltu pääasiassa valtavan datan säilyttämiseen ja käsittelemiseen, jonka olisi pitänyt esittää mikä tahansa kahdesta tekijästä tilavuuden, nopeuden ja vaihteluvälin välillä. Se tallentaa tietoja hajautettuun käsittelyjärjestelmään, joka toimii hyödykelaitteistoilla. Kun otetaan huomioon koko Hadoop-ekosysteemiprosessi, HDFS jakaa datalohot ja Map Reduce tarjoaa ohjelmointikehyksen tietojen lukemiseen HDFS: ään tallennetusta tiedostosta.
Suositellut artikkelit:
Tämä on ollut opas Hadoop Ecosysteemille. Täällä olemme keskustelleet Hadoop Ekosysteemin peruskäsitteestä, sen arkkitehtuurista, HDFS-toiminnoista, esimerkkeistä, HDFS-vikasietoisuudesta jne. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -
- Hadoopin käyttö oikeassa maailmassa
- Hadoop vs. Splunk
- Ura Hadoopissa
- Hadoop vs. SQL Performance