Mikä on Hadoop?

Ennen kuin ymmärrät Hadoopin edut, ymmärrä ensin Hadoop. Hadoop on suuri tietojenkäsittelyn paradigma, joka tarjoaa luotettavan, skaalautuvan paikan tietojen varastointiin ja käsittelyyn. Hadoopin on luonut Doug Cutting, ja häntä pidetään ”Hadoopin isänä”. Hadoop oli poikansa lelu-norsun nimi. Hadoopin juuret olivat Nutch-hakukoneprojektissa. Hadoop on prosessointikehys, joka toi valtavia muutoksia tapaan, jolla käsittelemme tietoja, tapaan, jolla me tallennamme tietoja. Verrattuna perinteisiin prosessointityökaluihin, kuten RDBMS, Hadoop osoitti, että pystymme tehokkaasti torjumaan isojen tietojen, kuten

Monenlaisia ​​tietoja: Hadoop voi tallentaa ja prosessoida jäsenneltyjä sekä osittain jäsenneltyjä ja jäsentämättömiä tietomuotoja.

Tietomäärä : Hadoop on erityisesti suunniteltu käsittelemään valtavaa tietomäärää petabyyttejä.

Tietojen nopeus : Hadoop pystyy käsittelemään datan petatavuja suurella nopeudella verrattuna muihin prosessointityökaluihin, kuten RDBMS, ts. Käsittelyaika Hadoopissa on hyvin lyhyempi.

Hadoopin tärkeimmät piirteet

  • Hadoop on luonteeltaan avoimen lähdekoodin.
  • Se toimii koneiden klusterissa. Klusterin koko riippuu vaatimuksista.
  • Se voi toimia normaalilla hyödykelaitteistolla.

Hadoopin edut

Tässä osassa käsitellään Hadoopin etuja. Katsokaamme nyt niitä yksi kerrallaan:

1. Avoin lähdekoodi

Hadoop on luonteeltaan avoimen lähdekoodin eli lähdekoodi on vapaasti saatavissa. Voimme muokata lähdekoodia liiketoimintavaatimuksemme mukaisesti. Jopa alkuperäisiä versioita Hadoopista, kuten Cloudera- ja Horton-teoksia, on myös saatavana.

2. Skaalautuva

Hadoop työskentelee koneiden klusterissa. Hadoop on erittäin skaalautuva. Voimme lisätä klusterimme kokoa lisäämällä uusia solmuja vaatimuksen mukaan ilman seisokkeja. Tämä tapa lisätä uusia koneita klusteriin tunnetaan nimellä vaakatasoitus, kun taas kasvavat komponentit, kuten kiintolevyn ja RAM: n kaksinkertaistaminen, tunnetaan vertikaalisena skaalausena.

3. Vikasietoinen

Vikatoleranssi on Hadoopin tärkein ominaisuus. Oletusarvon mukaan jokaisella HDFS-lohkolla on replikointikerroin 3. Jokaiselle dataloholle HDFS luo vielä kaksi kopiota ja tallentaa ne eri kohtaan klusterissa. Jos jokin lohko katoaa konevian vuoksi, meillä on edelleen kaksi uutta kopiota samasta lohkosta, ja niitä käytetään. Tällä tavoin vikatoleranssi saavutetaan Hadoopissa.

4. Järjestelmä riippumaton

Hadoop pystyy käsittelemään erityyppisiä tietoja. Se on riittävän joustava tallentamaan erilaisia ​​tiedostomuotoja ja pystyy toimimaan sekä datan kanssa skeemalla (jäsennelty) että kaavasta vapaalla datalla (jäsentämättä).

5. Suuri suorituskyky ja matala viive

Läpäisyaste tarkoittaa tehtyä työmäärää yksikköaikaa kohti ja matala viive tarkoittaa tietojen käsittelyä ilman viivettä tai vähemmän viivettä. Koska Hadoopia ohjaa jaetun tallennuksen ja rinnakkaiskäsittelyn periaate, prosessointi tapahtuu samanaikaisesti jokaisessa datalohossa ja toisistaan ​​riippumattomina. Lisäksi data siirretään sijaan datan siirtämisestä klusterin tietoihin. Nämä kaksi edistävät suurta suorituskykyä ja matalaa latenssia.

6. Tietojen sijainti

Hadoop toimii periaatteella "Siirrä koodi, ei tietoa". Hadoopissa Data pysyy paikallaan ja datan käsittelyä varten koodi siirretään dataan tehtävien muodossa, tämä tunnetaan nimellä Data Locality. Koska kyse on petatavualueella olevista tiedoista, datan siirtäminen verkon yli on vaikeaa ja kallista. Data-sijainti varmistaa, että klusterin tiedonsiirto on minimaalista.

7. Suorituskyky

Vanhoissa järjestelmissä, kuten RDBMS, data prosessoidaan peräkkäin, mutta Hadoopissa prosessointi alkaa kaikilla lohkoilla kerralla, jolloin saadaan rinnakkaisprosessointi. Rinnakkaisten käsittelytekniikoiden ansiosta Hadoopin suorituskyky on paljon parempi kuin Legacy-järjestelmissä, kuten RDBMS. Vuonna 2008 Hadoop jopa voitti tuolloin nopeimman supertietokoneen.

8. Jaa mitään arkkitehtuuria

Jokainen Hadoop-klusterin solmu on riippumaton toisistaan. He eivät jaa resursseja tai tallennustilaa, tämä arkkitehtuuri tunnetaan nimellä Share Nothing Architecture (SN). Jos klusterin solmu epäonnistuu, se ei pudota koko klusteria, koska jokainen solmu toimii itsenäisesti, mikä eliminoi yhden vikakohdan.

9. Tuki useille kielille

Vaikka Hadoop kehitettiin pääosin Java-ohjelmassa, se laajentaa tukea muille kielille, kuten Python, Ruby, Perl ja Groovy.

10. Kustannustehokas

Hadoop on luonteeltaan erittäin taloudellinen. Voimme rakentaa Hadoop-klusterin normaalilla raakalaitteistolla, mikä vähentää laitteistokustannuksia. Pilvikauden mukaan Hadoopin tietojenhallintakustannukset eli sekä laitteisto- että ohjelmistokulut ja muut kulut ovat hyvin pienet verrattuna perinteisiin ETL-järjestelmiin.

11. Abstraktio

Hadoop tarjoaa abstraktiota eri tasoilla. Se helpottaa työtä kehittäjille. Iso tiedosto jaotellaan samankokoisiksi lohkoiksi ja tallennetaan klusterin eri paikoissa. Luodessasi karttaa pienentävää tehtävää meidän on huolehdittava lohkojen sijainnista. Annamme täydellisen tiedoston syötteenä ja Hadoop-kehys huolehtii eri sijaintipaikkojen dattalohkojen käsittelystä. Pesä on osa Hadoopin ekosysteemiä ja se on abstraktio Hadoopin päällä. Koska Map-Reduce-tehtävät kirjoitetaan Java-kielellä, SQL-kehittäjät ympäri maailmaa eivät pystyneet hyödyntämään Map Reduce -palvelua. Joten Hive esiteltiin tämän ongelman ratkaisemiseksi. Voimme kirjoittaa SQL: n kaltaisia ​​kyselyjä Hivelle, mikä puolestaan ​​laukaisee Mapin vähentämään työpaikkoja. Joten Hiven takia SQL-yhteisö pystyy myös työskentelemään Map Reduce Tasks -ohjelmassa.

12. Yhteensopivuus

Hadoopissa HDFS on tallennuskerros ja Map Reduce on prosessorimoottori. Mutta ei ole jäykkää sääntöä, jonka mukaan Map Reduce -sovelluksen tulisi olla oletusprosessointimoottori. Uudet prosessointikehykset, kuten Apache Spark ja Apache Flink, käyttävät HDFS-tallennusjärjestelmää. Jopa Hivessä, voimme vaihtaa Execution Engine -sovelluksemme Apache Teziksi tai Apache Sparkiksi vaatimuksemme mukaisesti. Apache HBase, joka on NoSQL Columnar Database, käyttää HDFS-tallennuskerrosta.

13. Eri tiedostojärjestelmien tuki

Hadoop on luonteeltaan erittäin joustava. Se voi niellä erilaisia ​​datamuotoja, kuten kuvia, videoita, tiedostoja jne. Se voi myös käsitellä jäsenneltyä ja jäsentämätöntä tietoa. Hadoop tukee erilaisia ​​tiedostojärjestelmiä, kuten JSON, XML, Avro, Parquet jne.

Hadoopin työskentely

Alla ovat kohdat, jotka osoittavat Hadoopin toiminnan:

1. Hajautettu tallennus ja rinnakkaiskäsittely

Tämä on kaikkien Hadoop-ekosysteemien, mukaan lukien Apache Spark, runkojen periaate. Hadoopin ja Sparkin toiminnan ymmärtämiseksi meidän on ensin ymmärrettävä, mikä on ”hajautettu tallennus ja rinnakkaiskäsittely”.

2. Hajautettu säilytys

Hadoop ei tallenna tietoja yhdessä koneessa. Sen sijaan se hajottaa kyseisen valtavan datan samankokoisiin lohkoihin, jotka ovat oletuksena 256 Mt, ja tallentaa nämä lohkot klusterin eri solmuihin (työntekijän solmut). Se tallentaa näiden lohkojen metatiedot isäntäsolmuun. Tämä tapa tallentaa tiedosto hajautettuihin paikkoihin klusterissa tunnetaan nimellä Hadoopin hajautettu tiedostojärjestelmä - HDFS.

3. Rinnakkaisprosessointi

Se on prosessointimalli, jossa käsittely suoritetaan samanaikaisesti HDFS: ään tallennettujen datalohkojen kanssa. Rinnakkaiskäsittely toimii käsitteellä ”Siirrä koodi, ei tietoa”. Tiedot pysyvät paikallaan HDFS: ssä, mutta koodi siirretään dataan käsittelyä varten. Yksinkertaisesti sanottuna, jos tiedostomme on jaettu 100 lohkoon, työstä luodaan 100 kopiota ja ne kulkevat klusterin läpi sijaintipaikkaan, ja käsittely 100 lohkossa alkaa samanaikaisesti (Map Phase). Kaikkien lohkojen lähtötiedot kerätään ja pelkistetään lopulliseen tuotokseen (Reduce Phase). Karttavähennystä pidetään ”Hadoopin sydämenä”.

Johtopäätös ja edut Hadoopille

Tässä data-aikakaudella Hadoop tasoitti tietä erilaiseen lähestymistapaan isojen tietojen aiheuttamiin haasteisiin. Kun sanomme, Hadoop, emme tarkoita pelkästään Hadoopia, se sisältää Hadoop Ecosystem -työkaluja, kuten Apache Hive, joka tarjoaa SQL-tyyppisiä toimintoja Hadoopin päällä, Apache Pig, Apache HBase for Columnar -tallennustietokanta, Apache Spark muistin sisäiseen prosessointiin ja monet. lisää. Vaikka Hadoopilla on omat haitansa, se on erittäin mukautuva ja kehittyy jatkuvasti jokaisen julkaisun mukana.

Suositellut artikkelit

Tämä on opas Hadoopin eduista. Tässä keskustellaan siitä, mikä on Hadoop ja Hadoopin tärkeimmät edut. Voit myös käydä läpi muiden aiheeseen liittyvien artikkeleidemme saadaksesi lisätietoja-

  1. HADOOP-kehys
  2. Mikä on Hadoop-klusteri?
  3. Mikä on MapReduce Hadoopissa?
  4. Hadoop-tietokanta
  5. Mikä on Hadoop? | Sovellukset ja ominaisuudet

Luokka: