Johdatus Sqoopin haastatteluun liittyviin kysymyksiin ja vastauksiin

Sqoop on avoimen lähdekoodin tiedonsiirtotyökalu, Sqoop-työkalu siirtää tietoja Hadoop Ekosysteemin ja relaatiotietokantapalvelimien (RDBMS) välillä. Se tuo tietoja Hadoop-tiedostojärjestelmään (HDFS) relaatiotietokannoista, kuten Oracle, MySQL, jne., Vie myös tietoja Hadoop-tiedostojärjestelmästä RDMS: ään.

Alla on 15 tärkeää 2019 Sqoopin haastattelua koskevaa kysymystä ja vastausta:

Joten olet vihdoin löytänyt unelmatyösi Sqoopista, mutta mietit miten Sqoopin haastattelu saadaan halki ja mikä voisi olla todennäköinen 2019 Sqoopin haastattelukysymys. Jokainen haastattelu on erilainen ja myös työn laajuus on erilainen. Pitäen tämän mielessä olemme suunnitelleet yleisimmät Sqoopin haastatteluun liittyvät kysymykset ja vastaukset auttaaksesi sinua menestymään haastattelussa.

Nämä kysymykset on jaettu kahteen osaan, jotka ovat seuraavat:

Osa 1 - Sqoopin haastattelukysymykset (perus)

Tämä ensimmäinen osa kattaa Sqoopin haastattelun peruskysymykset ja vastaukset.

1. Määritä Sqoop ja miksi käytämme Sqoop-sovellusta?

Vastaus:
Sqoop on avoimen lähdekoodin tiedonsiirtotyökalu, joka on tarkoitettu tiedonsiirtoon Hadoop Ecosystem- ja relaatiotietokantapalvelimien (RDBMS) välillä. Sqoopia käytetään tietojen tuomiseen relaatiotietokannoista, kuten Oracle, MySQL, jne., Hadoop-tiedostojärjestelmään (HDFS), ja myös tietojen viemiseen Hadoop-tiedostojärjestelmästä relaatiotietokantoihin.

2. Mitkä ovat Sqoopin erityispiirteet?

Vastaus:
Alla on Sqoopin tukemat ominaisuudet -

  1. Kuormitettavuus
  2. Täysi lastaus ja inkrementaalinen lastaus
  3. Tietojen pakkaustekniikat
  4. SQL-kyselyjen tulosten tuominen
  5. Kaikkien tärkeimpien tietokantojen dataliittimet
  6. Suora tietojen latauksen tuki Hadoop File Systems -järjestelmään
  7. Suojauskokoonpanot, kuten Kerberos
  8. Samanaikaiset tuonti- tai vientitoiminnot

Siirrytään seuraavaan Sqoopin haastattelukysymykseen.

3. Nimeä Sqoopin tukemat relaatiotietokannat ja Hadoop-ekosysteemilähteet?

Vastaus:
Sqoop tukee tällä hetkellä MySQL, PostgreSQL, Oracle, MSSQL, Teradata ja IBM: n Netezza osana relaatiotietokantoja.

Tällä hetkellä tuetut Hadoop-ympäristöjärjestelmän kohdepalvelut ovat HDFC, Hive, HBase, H Catalog ja Accumulo.

Sqoop käyttää MySQL: tä oletustietokannana.

4. Kuinka Sqoop toimii?

Vastaus:
Tämä on yleinen Sqoopin haastattelukysymys, jota haastattelussa esitetään. Tiedonsiirtoon Sqoop käyttää vienti- ja tuontikomentoja. Map Reduce -ohjelmaa käytetään Sqoopissa sisäisesti tietoaineiston tallentamiseen HDFS: ään. Komennot liitetään karttatehtäviin tietojen hakemiseksi relaatiotietokannoista; Pienennä tehtävä vastaa siitä, että haetut tiedot sijoitetaan määränpäähän (HDFS / HBase / Hive)

Sqoop käyttää myös erilaisia ​​API-liitäntöjä yhteydenpitoon useisiin tietokantoihin. Sqoop tarjoaa myös mahdollisuuden luoda mukautettuja liittimiä erityisvaatimusten täyttämiseksi.

Katsotaan alla olevia tuontia ja vientiä koskevia komentoja

Komento yhteyden muodostamiseen MySQL-tietokantaan tietojen tuontia varten Lokitaulukosta

sqoop tuonti - yhdistä jdbc: mysql: // localhost / –käyttäjänimi –salasana –taulu –m 1
sqoop tuonti - yhdistä jdbc: mysql: // localhost / mytestdb - käyttäjänimi root - salasana admin123 - taulukko loki-m 1

Komento tietojen viemiseksi HDFS: stä relaatiotietokantaan

sqoop vienti - yhdistä jdbc: mysql: // localhost / sqoop_export - taulukko vienti-dir / sqoop / emp_last / part-m-00000 - päivitys-avaimen tunnus
sqoop vienti –kytke jdbc: mysql: // localhost / sqoop_export –taulukko log_table –vienti-dir / sqoop / data / foler1 / part-m-00000

5. Mikä on Sqoop Metastore? Selitä se?

Vastaus:
Sqoop Metastore on Sqoopissa saatavilla oleva työkalu, jota käytetään Sqoop-sovelluksen määrittämiseen sallimaan jaetun arkiston isännöinti metatietojen muodossa. Tätä Metastorea voidaan käyttää töiden suorittamiseen ja useiden käyttäjien hallintaan käyttäjäroolien ja -toimintojen perusteella. Kaikki useat käyttäjät voivat suorittaa useita tehtäviä tai toimia samanaikaisesti saavuttaaksesi tehtävät tehokkaasti. Sqoop Metastore otetaan oletusarvoisesti käyttöön muistilla. Kun työ luodaan Sqoopissa, työn määritelmä tallennetaan Metastoreen ja luetellaan tarvittaessa Sqoop-töillä.

6. Mitä tiedostomuotoja Sqoop tukee tietojen tuonnissa?

Vastaus:
Sqoop käyttää kahta tiedostomuotoa tietojen tuontiin. Ne ovat: - Rajattu testitiedostomuoto ja sekvenssitiedostomuoto.

Rajattu tekstitiedostomuoto : Rajoitettu tekstimuoto on tuontiasetuksen oletusmuoto. Voimme silti määritellä nimenomaisesti argumentin –as- avulla. Samoin argumentin ohittaminen asettaa erotinmerkit rivien ja sarakkeiden väliin.

Sekvenssitiedostomuoto : Tämän tiedostomuodon voidaan sanoa olevan binaarinen tiedostomuoto. Tämän tyyppiset tiedostotietueet tallennetaan räätälöityihin tietuetyyppeihin, jotka paljastetaan Java-luokkina.

Siirrytään seuraavaan Sqoopin haastattelukysymykseen.

7. Voimmeko hallita useita karttaajia sqoopissa? Jos kyllä, miten?

Vastaus:
Kyllä, voimme hallita Sqoopin mappers-lukumäärää määrittämällä parametrin “-num-mappers” sqoop-komentoon. Tämä parametri voi hallita karttatehtävien määrää, ts. Sqoop käyttää vain parallelismin astetta. Lukumäärästä päätetään vaatimuksen perusteella.

Syntaksi: Käytä näitä lippuja hallitaksesi karttaajien lukumäärää: m, -num- mappers

Osa 2 - Sqoopin haastattelukysymykset (edistyneet)

Katsokaamme nyt edistyneempiä Sqoopin haastattelukysymyksiä.

8. Mikä on Sqoop-merge ja selitä sen käyttö?

Vastaus:
Sqoop-yhdistäminen on työkalu, joka yhdistää kaksi erilaista tietojoukkoa, jotka ylläpitävät ainoata versiota, korvaamalla tietojoukon vanhemman version merkinnät uusilla tiedostoilla, jotta se olisi uusimman version tietojoukko. Tapahtuu prosessi, joka tasoittaa yhdistämällä kaksi eri tietojoukkoa, joka säilyttää tiedot häviämättä ja tehokkuudella ja turvallisuudella. Tämän operaation suorittamiseksi yhdistämisnäppäinkomentoa käytetään kuten “–merge-key”

9. Mitkä ovat erot Sqoopin, flumeen ja distcpin välillä?

Vastaus:
Sekä Distcp: tä että Sqoop: ta käytetään datan siirtoon. Sqoop-tietokantaa käytetään minkä tahansa tyyppisen tiedon siirtämiseen yhdestä Hadoop-klusterista toiseen, kun taas Sqoop siirtää tietoja relaatiotietokantojen ja Hadoop-ekosysteemien, kuten Hive, HDFS ja HBase, välillä. Mutta molemmat menetelmät käyttävät samaa lähestymistapaa tietojen kopiointiin., joka on vedä / siirrä.

Flume on jakanut työkalun, joka seuraa agenttiperustaista arkkitehtuuria lokien virtauttamiseksi Hadoop-ekosysteemiin. Sqoop on liitinpohjainen arkkitehtuuri.

Flume kerää ja yhdistää valtavan määrän lokitietoja. Flume voi kerätä tietoja erityyppisistä lähteistä; se ei ota huomioon kaavaa tai jäsenneltyä / jäsentämätöntä tietoa. Flume voi vetää kaikenlaista tietoa. Sqoop voi tuoda vain relaatiotietokantatietoja, joten skeema on pakollinen sqoopin käsittelyyn. Yleensä bulkkityö on paras vaihtoehto siirtäessä irtotavaroita.

Siirrytään seuraavaan Sqoopin haastattelukysymykseen.

10. Mitä tietolähteitä Apache Sqoop tukee?

Vastaus:
Apache Sqoopin tukemien eri sovellusten eri tietolähteet ovat seuraavat:

  1. Pesä
  2. HBase
  3. Hadoopin hajautettu tiedostojärjestelmä (HDFS)
  4. HCatalog
  5. Accumulo

11. Mitkä ovat Sqoopin eniten käytetyt komennot / toiminnot?

Vastaus:

Tämä on haastattelussa esitetyt edistyneet Sqoopin haastattelukysymykset. Luettelo Sqoopissa käytetyistä peruskomennoista on seuraava:

Codegen -Codegen -koodia käytetään koodin luomiseen viestintään tietokantatietueisiin.

Eval -Sqoop Eval auttaa SQL-näytekyselyjen suorittamisessa tietokantoja vastaan ​​ja tarjoaa tulokset konsolissa.

Ohje -Luettelo käytettävissä olevat komennot

Tuo -Import tuo taulukon Hadoop-ekosysteemiin

Vienti -vientiä käytetään HDFS-tietojen viemiseen relaatiotietokantoihin.

Luo-pesää-taulukko -Tämä komento on hyödyllinen tuotaessa taulukon määritelmää pesään

Tuo kaikki taulukot -Tuonti-kaikki taulukot tuo taulukot muodostamaan relaatiotietokannat HDFS: ään.

Lista-tietokannat - Se luettelee kaikki palvelimella olevat tietokannat.

Listataulut - Se luettelee kaikki tietokannassa olevat taulukot.

Versiot - Se näyttää versiotiedot.

Toiminnot - Rinnakkaistuonti / -vienti, Täysi lataus, Lisääntyvä kuormitus, Täysi lataus, Vertailu, Liittimet RDBMS-tietokantoihin, Kerberos-tietoturvaintegraatio, Lataa tiedot suoraan HDFS: ään (Hive / HBase)

12. Selitä parhaat käytännöt tuomalla taulukoita MySQL: stä tai muista tietokannoista Sqoopilla?

Vastaus:
Tuodessamme taulukoita MySQL: stä, meidän tulisi varmistaa muutamia asioita, kuten todennus ja valtuutus kohdepalvelimelle ja tietokantoille. Meidän on varmistettava, että olemme myöntäneet tarvittavat käyttöoikeudet tietokantoihin, joihin on pääsy, ja varmistettava myös isäntänimen tarkkuus, kun muodostamme yhteyden lähde- ja kohde-isäntänimiin. Jos meillä ei ole tarvittavaa lupaa, saamme yhteyden epäonnistumisen poikkeuksen muodostaessamme yhteyttä tietokantaan.

13. Kuinka päivität jo viedyt tiedot tai rivit?

Vastaus:
Päivittääksesi rivit, jotka on jo viety määränpäähän, voidaan käyttää parametria “-päivitys-avain”. Tässä käytetään pilkuilla erotettua sarakeluetteloa, joka yksilöi rivin yksilöllisesti, ja kaikkia näitä sarakkeita käytetään luodun UPDATE-kyselyn WHERE-lauseessa. SET-osa kyselystä huolehtii kaikista muista taulukon sarakkeista.

Siirrytään seuraavaan Sqoopin haastattelukysymykseen.

14. Kuinka JDBC-ohjain määritetään ja asennetaan Apache Sqoopiin?

Vastaus:
Apache Sqoopin JDB-ohjaimet voidaan määrittää Hadoop-palveluntarjoajan, kuten Cloudera tai Hortonworks, perusteella, missä konfiguraatio vaihtelee hieman Hadoop-palveluntarjoajan perusteella. Clouderan JDBC voidaan määrittää luomalla kirjastokansio, kuten / var / lib /. Tämä voidaan tehdä kaikille kolmansien osapuolien kirjastoille, jotka on määritettävä vaatimuksen mukaisesti. Tällä tavalla minkä tahansa tyyppinen tietokanta voidaan konfiguroida sen JDBC-ohjaimen avulla. JDBC-ohjaimen lisäksi Apache Sqoop vaatii liittimen yhteyden luomiseksi eri relaatiotietokantojen välillä. Tärkeimmät komponentit, joita tarvitaan yhteyden muodostamiseen tietokantoihin, ovat tietyn tietokantatoimittajan ohjaimen ja liittimen kautta.

15. Mikä on jakolauseke ja milloin sitä käytetään?

Vastaus:
Jaettu parametri on tarkoitettu tuotavan datan viipaloimiseksi useisiin rinnakkaisiin tehtäviin. Tätä parametria käyttämällä voimme määrittää sarakkeen nimet, nämä ovat sarakkeiden nimi, jonka perusteella sqoop jakaa tuotavat tiedot useiksi palasiksi ja ne toimivat rinnakkain. Se on yksi tekniikoista, joilla viritetään esitystä Sqoopissa.

Suositellut artikkelit

Tämä on opas luetteloon Sqoopin haastattelua koskevista kysymyksistä ja vastauksista, jotta ehdokas voi helposti puuttua näihin Sqoopin haastattelukysymyksiin. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. Hadoop vs Teradata -Mikä on hyödyllinen
  2. 13 uskomattomia tietokantatestaushaastattelukysymyksiä
  3. 10 suosituinta HBase-haastattelua koskevaa kysymystä
  4. 10 upeinta PHP-haastattelukysymystä kokeneille
  5. Tunne viisi hyödyllistä DBA-haastattelua koskevaa kysymystä