Johdatus Hadoop-vaihtoehtoihin

Apache Hadoop on hirviömäinen kehys, joka käyttää useita muita komponentteja, kuten HDFS, Hive, Spark, YARN ja Zookeeper. Sitä käytetään prosessoimaan ja analysoimaan sisäisistä tai ulkoisista lähteistä haettua tietoa. Se voi skaalautua useista koneista tai palvelimista tuhansiin. On olemassa monia sisäänrakennettuja kirjasto-ominaisuuksia, jotka voivat havaita ja käsitellä toimintahäiriöitä.

Hadoopin komponentit

1) Hadoop-hajautettu tiedostojärjestelmä (HDFS):

Tämä on Hadoopin tietojen varastosäiliö. Se toimii hajautetun datan periaatteessa, jossa valtavat tietosarjat hajotetaan pieniksi osiksi ja tallennetaan useiden koneiden yli klusteriin.

2) MapReduce:

Se on ohjelmointimalli suorittaa analyysejä rinnakkain klusterin eri solmuissa sijaitseville tiedoille.

3) pesä:

Avoimen lähdekoodin kehys, jota käytetään strukturoidun tiedon kyselyyn käyttämällä Hive-Query-kieltä. Indeksointiominaisuutta käytetään kyselyprosessin nopeuttamiseen.

4) Ambari:

Alusta klusterien tilan seuraamiseen ja toimien automatisointiin. Sillä on yksinkertainen web-käyttöliittymä ja se voidaan helposti asentaa ja konfiguroida.

Luettelo Hadoop-vaihtoehdoista

Alla on seuraavat Hadoop-vaihtoehdot, jotka ovat seuraavat:

Eräkäsittely

Tässä käsittely tapahtuu vain arkistotiedoilla. Esimerkiksi tilintarkastukset ja väestölaskenta ovat vanhojen tietojen analyysiä, jotta voidaan paremmin ennustaa tulevia tuloksia. Nämä tiedot voivat sisältää miljardeja rivejä ja sarakkeita. Eräkäsittely soveltuu parhaiten suuriin tietojenkäsittelyihin ilman reaaliaikaista analyysiä.

Reaaliaikainen käsittely

Se tunnetaan myös nimellä Stream-Processing. Täällä tietoja käsitellään aika ajoin, kun ne luodaan, jotta saadaan nopea käsitys todennäköisistä tuloksista. Maanjäristyksen havaitseminen ja osakemarkkinat ovat parhaat esimerkit reaaliaikaisen analyysin välttämättömyydestä.

Apache Spark

Spark on kehys, jota käytetään Hadoopin kanssa prosessoimaan erä- tai reaaliaikaista tietoa klusteroiduissa koneissa. Sitä voidaan käyttää myös itsenäisenä asiana, haettaessa ja tallentamalla tietoja kolmansien osapuolien palvelimille käyttämättä HDFS: tä. Se on avoimen lähdekoodin tuote. Se tarjoaa sovellusliittymiä, jotka on kirjoitettu käyttämällä SCALA-, R- tai Python-sovelluksia, jotka tukevat yleistä käsittelyä. Strukturoidun datan käsittelemiseksi voidaan käyttää Spark-SQL: tä. Spark Streaming suorittaa kaivattua reaaliaikaista analysointia. Spark tukee koneoppimista MLIB: n avulla. Loppujen lopuksi prosessoitua dataa voidaan tarkastella Graphixin avulla.

Sparkin merkittävin piirre on muistin sisäinen käsittely. Koko tietojen käsittely tapahtuu muistissa eikä levyllä. Tämä menetelmä säästää tulon lukemisajan levylle ja lähtön takaisin siitä. Spark on salamannopea ja melkein 100 kertaa nopeampi kuin Hadoop-prosessointi. Koko toiminto määritetään ja lähetetään Spark-kontekstiin. Vasta sitten käsittely alkaa tyhjästä. Tämä menetelmä tunnetaan nimellä Lazy-Execution. Kafkaa, Flumea käytetään syötteinä datan suoratoistoon. Spark voi käyttää analysointiin jäsenneltyä tai jäsentämätöntä tietoa. Tietovirrat ovat joukko dataa tiettynä ajanjaksona Spark Streaming -sovelluksessa. Ne muutetaan erissä ja toimitetaan Spark Engine -käsittelyyn. Strukturoitu data muunnetaan tietokehyiksi ennen Spark-SQL: n käyttöä jatkoanalyysiin.

Apache Storm

Apache Storm on myös yksi Hadoopin vaihtoehdoista, joka soveltuu parhaiten hajautettuun, reaaliaikaiseen analytiikkaan. Se on helppo asentaa, käyttäjäystävällinen ja ei sisällä tietojen menettämistä. Myrskyllä ​​on erittäin korkea prosessointiteho ja pienellä viiveellä (yleensä sekunneissa) verrattuna Hadoopiin.

Katsomme tarkemmin Storm-työnkulkua:

  • Myrskyn topologia (samanlainen kuin DAG, mutta fyysinen suoritussuunnitelma) toimitetaan Nimbukselle (Master Node).
  • Tehtävät ja niiden suorittamisjärjestys toimitetaan Nimbukselle.
  • Nimbus jakaa käytettävissä olevat tehtävät tasaisesti esimiehille (Spouts) ja prosessin suorittavat työntekijäsolmut (pultit).
  • Kiinnitysruuvien ja pulttien terveyttä seurataan jatkuvasti sykemittarien avulla. Kun valvoja kuolee, Nimbus osoittaa tehtävän toiselle solmulle.
  • Jos Nimbus kuolee, valvontalaitteet käynnistävät sen automaattisesti. Samaan aikaan esimiehet jatkavat aiemmin annettujen tehtäviensä suorittamista.
  • Kun Nimbus on käynnistetty uudelleen, se jatkaa työskentelyä siitä kohdasta, jossa se pysähtyi. Tietojen menetystä ei siis tapahdu ja kukin data kulkee topologian läpi ainakin kerran.
  • Topologia jatkuu, paitsi kunnes Nimbus lopetetaan tai sammutetaan voimakkaasti.
  • Myrsky käyttää Zookeeperia tarkkailemaan Nimbusta ja muita valvojana olevia solmuja.

Iso kysely

Tietokantoja käytetään tapahtumien käsittelyyn. Johtajat luovat raportteja ja analysoivat tietoja eri tietokannoista. Tietovarastot otettiin käyttöön hakemaan tietoja useista tietokannoista koko organisaatiossa. Google kehitti suuren kyselyn, joka on oman itsensä hallinnoima tietovarasto. Erittäin monimutkaisten kyselyjen käsittelemiseksi voi olla tarpeen erittäin tehokkaita palvelimia ja solmukoneita, jotka voivat maksaa valtavasti. Infrastruktuurin perustaminen voi viedä useita viikkoja. Kun enimmäiskynnys on saavutettu, se on mitoitettava. Näiden ongelmien ratkaisemiseksi iso kysely tarjoaa tallennustilaa Google-pilven muodossa. Työntekijän solmut skaalautuvat tietokeskuksen kokoon tarvittaessa monimutkaisen kyselyn suorittamiseksi muutamassa sekunnissa. Maksat käyttämästäsi eli kyselyistä. Google huolehtii resursseista, niiden ylläpidosta ja turvallisuudesta. Kyselyjen suorittaminen normaaleissa tietokannoissa voi kestää minuutteista tunteihin. Suuri kysely käsittelee tietoja paljon nopeammin ja se soveltuu pääasiassa tiedonsiirtoon, kuten verkkopeleihin ja esineiden Internetiin (IoT). Käsittelynopeus on yhtä suuri kuin miljardeja rivejä sekunnissa.

presto

Presto-kyselyä voidaan käyttää yhdistämään organisaation eri lähteiden tietoja ja analysoimaan niitä. Tiedot voivat sijaita pesässä, RDBMS tai Cassandra. Presto soveltuu parhaiten analyytikoille, jotka odottavat koko kyselyn raportin muutamassa minuutissa. Arkkitehtuuri on analoginen klassisen tietokannan hallintajärjestelmän kanssa, kun klusterissa käytetään useita solmuja. Facebook on kehittänyt sen analysoimiseksi ja oivalluksen löytämiseksi heidän sisäisestä tiedostaan, mukaan lukien heidän 300PB-tietovarasto. Tietoihinsa tehdään yli 30 000 kyselyä, jotka skannataan petabyytin yli päivässä. Myös muut johtavat yritykset, kuten Airbnb ja Dropbox, käyttävät Prestoa.

Suositeltava artikkeli

Tämä on opas Hadoop-vaihtoehdoille. Tässä keskustellaan Hadoop-komponenttien, eräkäsittelyn ja Hadoop-vaihtoehtojen reaaliaikaisen prosessoinnin komponenteista. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja:

  1. Hadoop-järjestelmänvalvojan työpaikat
  2. Hadoop vs. SQL Performance
  3. Ura Hadoopissa
  4. Hadoop vs Spark
  5. Hadoop-järjestelmänvalvoja | Taidot ja urapolku

Luokka: