Johdanto Hadoop-järjestelmänvalvojan haastatteluun liittyviin kysymyksiin ja vastauksiin

Joten olet vihdoin löytänyt unelmatyösi Hadoop Administa, mutta mietit miten Hadoop Admin -haastattelu murtataan ja mitkä voisivat olla todennäköiset Hadoop Adminin haastattelukysymykset. Jokainen haastattelu on erilainen ja myös työn laajuus on erilainen. Pitäen tämän mielessä olemme suunnitelleet yleisimmät Hadoop-järjestelmänvalvojan haastattelua koskevat kysymykset ja vastaukset auttaaksesi sinua menestymään haastattelussa.

Seuraavassa on Hadoopin järjestelmänvalvojan haastattelukysymyksiä, jotka auttavat sinua haastattelemaan Hadoopin haastattelua.

1. Mikä on telineetietoisuus? Ja miksi sitä tarvitaan?

Vastaus:
Räkkitietoisuus tarkoittaa datasolmujen jakamista useille telineille.HDFS seuraa telineetietoisuusalgoritmia datalohkojen sijoittamiseksi. Teline sisältää useita palvelimia. Ja klusterissa voi olla useita telineitä. Oletetaan, että Hadoop-klusteri on asetettu 12 solmua. Voi olla 3 telinettä, joissa jokaisessa on 4 palvelinta. Kaikki 3 telinettä on kytketty siten, että kaikki 12 solmua ovat kytkettyinä ja muodostavat klusterin. Päätettäessä telineiden lukumäärästä, tärkeä huomioitava seikka on kopiointikerroin. Jos on 100 Gt dataa, joka tulee virtaamaan joka päivä replikaatiotekijän 3 kanssa, klusterissa on oltava 300 Gt tietoa. On parempi vaihtoehto, jos tiedot kopioidaan telineiden yli. Vaikka jokin solmu menee alas, replika on toisessa telineessä.

2. Mikä on oletuslohkon koko ja miten se määritetään?

Vastaus:
128 Mt ja se on määritelty hdfs-site.xml, ja tämä on myös muokattavissa datan määrän ja käyttöoikeustason mukaan. Oletetaan, että 100 Gt dataa virtaa päivässä, data erottuu ja tallennetaan klusterin yli. Mikä on tiedostojen lukumäärä? 800 tiedostoa. (1024 * 100/128) (1024 à muunsi gigatavun MB: ksi.) Mukauttavan tietolohkon koon voi asettaa kahdella tavalla.

  1. hadoop fs -D fs.local.block.size = 134217728 (bittiä)
  2. Lisää hdfs-site.xml tähän ominaisuuteen à block.size bittikokolla.

Jos muutat oletuskokoksi 512 Mt, koska datan koko on valtava, tuotettujen tiedostojen enimmäismäärä on 200. (1024 * 100/512)

3. Kuinka saat raportin hdfs-tiedostojärjestelmästä? Tietoja levyn saatavuudesta ja aktiivisten solmujen määrästä?

Vastaus:
Komento: sudo -u hdfs dfsadmin –raportti

Nämä ovat luettelo tiedoista, jotka se näyttää,

  1. Konfiguroitu kapasiteetti - käytettävissä oleva kokonaiskapasiteetti hdfs-muodossa
  2. Nykyinen kapasiteetti - Tämä on kokonaistila, joka on varattu resursseille asuakseen metastore- ja fsimage-tilan käytön vieressä.
  3. Jäljellä oleva DFS - HDFS: llä on vielä tilaa tallennustilaa tallentaa lisää tiedostoja
  4. Käytetty DFS - Se on tallennustila, jonka HDFS on käyttänyt.
  5. DFS käytetty% - Prosentteina
  6. Toisitettujen lohkojen alla - lohkojen lukumäärä
  7. Lohkot, joissa on korruptoituneita kopioita - jos vioittuneita lohkoja
  8. Puuttuvat lohkot
  9. Puuttuvat lohkot (replikaatiokerroin 1)

4. Mikä on Hadoop-tasapainottaja ja miksi se on tarpeen?

Vastaus:
Solmujen välillä levinnyt data ei ole jakautunut oikeassa suhteessa, mikä tarkoittaa, että kunkin solmun käyttö ei ehkä ole tasapainossa. Yksi solmu saattaa olla liian hyödynnetty ja toinen voitu käyttää alikäytössä. Tämä johtaa korkeaan kustannusvaikutukseen minkä tahansa prosessin suorittamisen aikana ja se johtaisi näiden solmujen raskaaseen käyttöön. Tämän ratkaisemiseksi käytetään Hadoop-tasapainotinta, joka tasapainottaa tiedon käyttöä solmuissa. Joten aina kun tasapainottaja suoritetaan, tiedot siirretään yli, missä vajaakäyttöiset solmut täyttyvät ja ylimääräiset solmut vapautuvat.

5. Ero Clouderan ja Ambarin välillä?

Vastaus:

Cloudera ManagerAmbari
Clouderan hallintotyökaluHortonin hallintatyökalu toimii
Tarkkailee ja hallinnoi koko klusteria ja raportoi käytöstä ja mahdollisista ongelmistaTarkkailee ja hallinnoi koko klusteria ja raportoi käytöstä ja mahdollisista ongelmista
Mukana Clouderan maksullinen palveluAvoin lähdekoodi

6. Mitkä ovat Hadoopin järjestelmänvalvojan päätoimet?

Vastaus:
Seuraa klusterin terveyttä - Monia sovellussivuja on seurattava, jos prosessit suoritetaan. (Työhistorian palvelin, YARN-resurssienhallinta, Cloudera-manager / ambary jakauman mukaan)

ota suojaus käyttöön - SSL tai Kerberos

Viritä suorituskyky - Hadoop-tasapainottaja

Lisää uusia datasolmuja tarpeen mukaan - infrastruktuurimuutokset ja kokoonpanot

Valinnainen, kun MapReduce Job History Tracking Server otetaan käyttöön à Joskus palveluiden uudelleenkäynnistäminen auttaisi vapauttamaan välimuistia. Tällöin klusteri, jolla on tyhjä prosessi.

7. Mikä on Kerberos?

Vastaus:
Se on autentikointi, jota tarvitaan jokaisen palvelun synkronointiin prosessin suorittamiseksi. On suositeltavaa ottaa Kerberos käyttöön. Koska kyse on hajautetusta tietojenkäsittelystä, salaus on aina hyvä tapa käyttää tietoja ja käsitellä niitä. Koska jokainen solmu on kytketty ja kaikki tietoväylät kulkevat verkon kautta. Koska Hadoop käyttää Kerberosia, salasanoja, joita ei lähetetä verkoissa. Sen sijaan salasanoja käytetään laskemaan salausavaimet. Viestit vaihdetaan asiakkaan ja palvelimen välillä. Yksinkertaisesti sanottuna Kerberos tarjoaa identiteetin toisilleen (solmuille) turvallisella tavalla salauksen kanssa.

Kokoonpano ytimessä site.xml
Hadoop.security.authentication: Kerberos

8. Mikä on tärkeä luettelo hdfs-komennoista?

Vastaus:

komennotTarkoitus
hdfs dfs –lsListaa tiedostoja hdfs-tiedostojärjestelmästä.
Hdfs dfs –putKopioi tiedosto paikallisesta järjestelmästä hdfs-tiedostojärjestelmään
Hdfs dfs –chmod 777Anna lukea, kirjoittaa ja suorittaa lupa tiedostoon
Hdfs dfs –getKopioi tiedosto hdfs-tiedostojärjestelmästä paikalliseen tiedostojärjestelmään
Hdfs dfs –kissaTarkastele tiedoston sisältöä hdfs-tiedostojärjestelmästä
Hdfs dfs –rmPoista tiedosto hdfs-tiedostojärjestelmästä. Mutta se siirretään roskakoritiedostopolulle (se on kuin roskakori Windowsissa)
Hdfs dfs –rm –skipTrashPoistaa tiedoston pysyvästi klusterista.
Hdfs dfs –touchzLuo tiedosto hdfs-tiedostojärjestelmässä

9. Kuinka tarkistaa klusterissa toimitetun Hadoop-työn lokit ja miten lopettaa jo käynnissä oleva prosessi?

Vastaus:
lankalokit - applicationId - Sovelluspäällikkö luo lokit lokiinsa ja se liitetään luomaan tunnukseen. Tämä on hyödyllistä prosessin tilan ja lokitietojen seurannassa.

lankasovellus - tappaa - Jos klusterissa käynnissä oleva prosessi on lopetettava, käytetään tappa-komentoa, jossa sovelluksen tunnuksella lopetetaan työ klusterissa.

Suositeltava artikkeli

Tämä on opas luetteloon Hadoop-järjestelmänvalvojan haastattelua koskevista kysymyksistä ja vastauksista, jotta ehdokas voi helposti hakea nämä Hadoop-järjestelmänvalvojan haastattelukysymykset. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja

  1. Hadoop-klusterin haastattelukysymykset ja vastaukset - 10 suosituinta
  2. Tietojen mallinnushaastattelukysymykset - 10 tärkeää kysymystä
  3. SAS-järjestelmän haastattelukysymykset - 10 hyödyllistä kysymystä