Hadoop-klusterin haastattelua koskevat kysymykset ja vastaukset

Tämän artikkelin tarkoituksena on auttaa kaikkia Big Data -hakijoita vastaamaan kaikkiin Hadoop-klusterin haastatteluun liittyviin kysymyksiin, jotka liittyvät Big Data -ympäristön perustamiseen organisaatiossa. Tästä kyselylomakkeesta on apua muodostettaessa datasolmuja, nimisolmuja ja määritettäessä Big Data-demonien ylläpitämän palvelimen kapasiteettia.

Joten jos olet vihdoin löytänyt unelmatyösi Hadoop-klusterista, mutta mietit miten Hadoop-klusterin haastattelu saadaan halki ja mitkä voivat olla todennäköiset Hadoop-klusterin haastattelukysymykset. Jokainen haastattelu on erilainen ja myös työn laajuus on erilainen. Pitäen tämän mielessä olemme suunnitelleet yleisimmät Hadoop-klusterin haastatteluun liittyvät kysymykset ja vastaukset auttaaksesi sinua menestymään haastattelussa.

Joitakin tärkeimpiä Hadoop-klusterin haastattelukysymyksiä, joita haastattelussa usein kysytään, ovat seuraavat:

1.Mitkä ovat Hadoopin tärkeimmät komponentit Hadoop-klusterissa?

Vastaus:
Hadoop on kehys, jossa käsittelemme suurta dataa tai Hadoop on alusta, jolla voidaan käsitellä valtava määrä tietoa hyödykepalvelimilla. Hadoop on yhdistelmä monia komponentteja. Seuraavassa on tärkeimmät komponentit Hadoop-ympäristössä.
Nimesolmu : Pääsolmu huolehtii kaikista datasolmujen tiedoista ja tietojen tallennuspaikoista metatietomuodossa.
Toissijainen nimisolmu : Se toimii ensisijaisena nimisolmuna, jos ensisijainen nimisolmu laskee.
HDFS (Hadoop Distributed File System) : Se huolehtii kaikesta Hadoop-klusterin tallennuksesta.
Data-solmut : Data-solmut ovat orja-solmuja. Todelliset tiedot tallennetaan slave-solmuihin käsittelyä varten.
Lanka (vielä yksi resurssineuvottelija) : Ohjelmistokehys sovellusten kirjoittamiseen ja valtavan määrän tietojen käsittelemiseen. Se tarjoaa samat ominaisuudet kuin MapReduce, lisäksi se sallii jokaisen erätyön suorittaa samanaikaisesti Hadoop-klusterissa.

2.Miten suunnitella tietojen tallennus Hadoop-klusteriin?

Vastaus:
Tallennus perustuu kaavaan (Tallennus = Päivittäinen tiedon saanti * Replikointi).
Jos Hadoop-klusteri hakee tietoja 120 TB päivittäin ja meillä on oletustoistokerroin, niin päivittäinen tietojen tallennusvaatimus olisi
Tallennusvaatimus = 120 TB (päivittäinen tiedon saanti) * 3 (oletustoisto) => 360 TB
Seurauksena on, että meidän on perustettava vähintään 360 TB: n tieto klusteri päivittäistä tietojen syöttämistä varten.
Tallennus riippuu myös tietojen säilyttämisvaatimuksesta. Jos haluamme, että tietoja säilytetään 2 vuotta samassa klusterissa, niin meidän on järjestettävä datasolmut säilyttämisvaatimuksen mukaisesti.

3. Laske tietosolmun numerot.

Vastaus:
Meidän on laskettava useita Hadoop-klusteriin tarvittavia datasolmuja. Oletetaan, että meillä on palvelimia, joiden JBOD on 10 levyä, ja jokaisella levyllä on 4 TB: n tallennuskoko, joten jokaisella palvelimella on 40 TB: n tallennustila. Hadoop-klusteri saa tietoja 120 TB päivässä ja 360 TB päivämäärän jälkeen, kun olet ottanut käyttöön oletusreplikaatiotekijän.
Tietosolmujen lukumäärä = Päivittäinen tiedon saanti / datasolmun kapasiteetti
Tietosolmujen lukumäärä = 360/40 => 9 datasolmua
Siksi, että Hadoop-klusteri saa 120 TB: n dataa yllä olevalla kokoonpanolla, on määritettävä vain 9 datasolmua.

4.Miten muuttaa replikointikerrointa Hadoop-klusterissa?

Vastaus:
Muokkaa hdfs-site.xml-tiedostoa. Oletuspolku on Hadoop-asennushakemiston conf / kansio -kohdassa. muuta / lisää seuraava ominaisuus hdfs-site.xml:
dfs.replication
3
Estä replikointi
Replikointikerroin 3 ei ole pakollinen. Se voidaan asettaa myös 1: ksi. Replikaatiotekijä 5 toimii myös Hadoop-klusterissa. Oletusarvon asettaminen tekee klusterista tehokkaamman ja vaaditaan vähimmäislaitteisto.
Lisääntyvä replikointikerroin kasvattaisi laitteistovaatimusta, koska tietojen varastointi kerrotaan replikaatiotekijällä.

5.Mikä on Hadoopin datalohkon oletuskoko ja kuinka sitä muokata?

Vastaus:
Lohkokoko leikkaa / jaa tiedot lohkoihin ja tallenna se erilaisille datasolmuille.
Oletuksena lohkon koko on 128 Mt (Apache Hadoopissa) ja voimme muokata oletuslohkon kokoa.
Muokkaa hdfs-site.xml-tiedostoa. Oletuspolku on Hadoop-asennushakemiston conf / kansio -kohdassa. muuta / lisää seuraava ominaisuus hdfs-site.xml:
dfs.block.size
134217728
Lohkon koko
lohkon koko tavuina on 134 217 728 tai 128 Mt. Määritä myös koko jälkiliitteellä (kirjainkohtaiset), kuten k (kilo-), m (mega-), g (giga-) tai t (tera-) asettaaksesi lohkokoon KB, MB, TB jne.…

6.Kuinka kauan Hadoop-klusterin tulisi pitää poistettu HDFS-tiedosto poisto- / roskakorikansiossa?

Vastaus:
”Fs.trash.interval” on parametri, joka määrittelee kuinka kauan HDFS voi pitää mitä tahansa poistettua tiedostoa Hadoop-ympäristössä poistetun tiedoston noutamiseksi.
Väliaika voidaan määritellä vain minuutteina. 2 päivän hakuvälillä meidän on määritettävä ominaisuus virtausmuodossa.
Muokkaa tiedostoa core-site.xml ja lisää / muokkaa sitä seuraavalla ominaisuudella
fs.trash.interval
2880
Oletuksena hakuväli on 0, mutta Hadoop-järjestelmänvalvoja voi lisätä / muokata yllä olevaa ominaisuutta vaatimuksen mukaisesti.

7.Mikä ovat peruskomennot käynnistää ja lopettaa Hadoop-demonit?

Vastaus:
Kaikki komennot sbin / kansioon tallennettujen demonien käynnistämiseksi ja lopettamiseksi.
./sbin/stop-all.sh - Voit lopettaa kaikki demonit kerralla.
hadoop-daemon.sh aloitusnimen solmu
Hadoop-daemon.sh-aloitussolmu
lanka-daemon.sh, aloita resurssienhallinta
lanka-daemon.sh, aloita solmun hallinta
mr-jobhistory-daemon.sh aloitushistorian palvelin

8.Mikä ominaisuus määrittää muistin allokoinnin YARN: n hallinnoimiin tehtäviin?

Vastaus:
Ominaisuutta “yarn.nodemanager.resource.memory-mb” on muokattava / lisättävä, jotta muutetaan kaikkien YARN: n hallinnoimien tehtävien muistivarausta.
Se määrittää RAM-muistin määrän megatavuina. Data-solmut vievät 70% todellisesta RAM-muistista käyttää lankoihin. 96 Gt: n datasolmu käyttää 68 Gt lankaa varten, loppua RAM-määrää Data Node -deemoni käyttää ei-ynärniseen työhön.
Muokkaa tiedostoa “yarn.xml tiedosto” ja lisää / muokkaa seuraavaa ominaisuutta.
yarn.nodemanager.resource.memory-mb
68608
langan.nodemanager.resource.memory-mb oletusarvo on 8 192 Mt (8 Gt). Jos datasolmuilla on suuri RAM-kapasiteetti, meidän on muutettava arvoon jopa 70%: iin, muussa tapauksessa tuhlamme muistia.

9.Mitä suositellaan nimisolmun mitoittamiseen?

Vastaus:
Seuraavia yksityiskohtia suositellaan isäntäsolmun asettamiseksi hyvin alkuvaiheessa.
Suorittimet: Prosesseihin riittää yksi CPU, jossa on 6-8 ydintä.
RAM-muisti: Tieto- ja työnkäsittelypalvelimella tulisi olla vähintään 24–96 Gt RAM-muistia.
Tallennus: Koska HDFS-tietoja ei ole tallennettu Master-solmuun. Voit käyttää 1-2 Tt paikallista tallennustilaa
Koska tulevia työtaakkoja on vaikea päättää, suunnittele klusterisi valitsemalla laitteita, kuten CPU, RAM ja muisti, joka on helposti päivitettävissä ajan myötä.

10.Mikä ovat Hadoop-klusterin oletusportit?

Vastaus:

Daemon nimiOletusporttinumero
Nimi Solmu.50070
Tietosolmut.50075
Toissijainen nimi Solmu.50090
Varmuuskopio / tarkistuspiste.50105
Job Tracker.50030
Tehtävien jäljittäjät.50060

Suositellut artikkelit

Tämä on opas luetteloon Hadoop-klusterin haastatteluun liittyvistä kysymyksistä ja vastauksista, jotta ehdokas voi helposti puuttua näihin Hadoop-klusterin haastattelukysymyksiin. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. Elastinenhakuhaastattelu Kysymyksiä ja vastauksia-alkuun ja hyödyllisin
  2. 9 hämmästyttävää MapReduce -haastattelua koskevia kysymyksiä ja vastauksia
  3. 8 Hyödyllisin opas Big Data -haastattelukysymyksiin
  4. ETL-haastattelua koskevat kysymykset ja vastaukset, jotka sinun pitäisi tietää