Johdatus Apache PIG -haastattelukysymyksiin ja -vastauksiin

Joten olet vihdoin löytänyt unelmatyösi Apache PIG: stä, mutta ihmettelemme kuinka murtaa 2019 Apache PIG -haastattelu ja mitkä voisivat olla todennäköisiä Apache PIG -haastattelukysymyksiä. Jokainen Apache PIG -haastattelu on erilainen ja myös työn laajuus on erilainen. Pitäen tämän mielessä olemme suunnitelleet yleisimmät Apache PIG -haastattelukysymykset ja -vastaukset, joiden avulla saat menestystä Apache PIG -haastattelussa.

Seuraavassa on luettelo 2019 Apache PIG -haastattelukysymyksestä, joita esitetään enimmäkseen

1. Mitkä ovat tärkeimmät erot MapReducen ja Apache Pigin välillä?

Vastaus:
Seuraavassa on keskeiset erot Apache Pigin ja MapReducen välillä, joiden vuoksi Apache Pig tuli kuvaan:
• MapReduce on matalan tason tietojenkäsittelymalli, kun taas Apache Pig on korkean tason tiedonkulkualusta
• kirjoittamatta monimutkaisia ​​Java-toteutuksia MapReduceen, ohjelmoijat voivat saavuttaa samat toteutukset helposti Pig Latin -sovelluksella.
• Apache Pig tarjoaa sisäkkäisiä tietotyyppejä, kuten pussit, tuput ja kartat, koska ne puuttuvat MapReduce-sovelluksesta.
• Sika tukee dataoperaatioita, kuten suodattimia, liittymiä, tilauksia, lajittelua jne. Monien sisäänrakennettujen operaattoreiden kanssa. Saman toiminnon suorittaminen MapReducessa on valtava tehtävä.

2. Selitä MapReducen käyttö sika-tilassa.

Vastaus:
Apache Pig -ohjelmat on kirjoitettu kyselykielellä, jota kutsutaan nimellä Pig Latin, joka on samanlainen kuin SQL-kyselykieli. Kyselyn suorittamiseksi tarvitaan suoritusmoottori. Ja Pig-moottori muuntaa kyselyt MapReduce-töiksi ja siten MapReduce toimii suoritusmoottorina ja tarvitaan ohjelmien suorittamiseen.

3. Selitä sian käyttö.

Vastaus:
Voimme käyttää sikaa kolmeen luokkaan, ne ovat:
• ETL-dataputki: Sen avulla voidaan täyttää tietovarasto. Sika voi siirtää tiedot ulkoiseen sovellukseen, se odottaa, kunnes se on valmis, jotta se on vastaanottanut käsitellyt tiedot ja jatkaa sieltä. Se on sian yleisin käyttötapa.
• Raakadatan tutkimus.
• Iteratiivinen käsittely.

4. Vertaa Apache Pig- ja SQL-tiedostoja.

Vastaus:
• Apache Pig eroaa SQL: stä sen käytön suhteen ETL: ään, laiskaan arviointiin, tietojen tallentamiseen milloin tahansa valmistelupisteessä, tukeen putkilinjan halkeamille ja täsmällisestä suoritussuunnitelmien ilmoittamisesta. SQL (rakenteellinen kyselykieli) on suuntautunut kyselyihin, jotka tuottavat yhden tuloksen. SQL: llä ei ole sisäänrakennettua mekanismia tietojenkäsittelyvirran jakamiseksi ja eri operaattoreiden käyttämiseksi jokaisessa alavirrassa.
• Apache Pig sallii käyttäjän koodin sisällyttämisen missä tahansa vaiheessa putkilinjaa, kun taas jos SQL, missä tietoja käytetään, on ensin tuotava tietokantaan ja sitten puhdistus- ja muuntamisprosessi alkaa.

5. Selitä sian erilaisista monimutkaisista tietotyypeistä.

Vastaus:
Apache Pig tukee kolmea monimutkaista tietotyyppiä-
• Kartat - Nämä ovat tärkeitä, arvovarastoja, jotka on yhdistetty toisiinsa näppäimellä #.
Esimerkki: ('kaupunki' # 'pune', 'nasta' # 411045) • Tuples - aivan samanlainen kuin taulukon rivi, jossa eri kohteet erotetaan pilkulla. Tuples voi olla useita määritteitä.
• Laukut - Järjestämätön kokoelma tuppeja. Laukku sallii useita kaksoiskappaleita.
Esimerkki: (('Mumbai', 022), ('New Delhi', 011), ('Kolkata', 44))

6. Selitä Pigissä saatavilla olevat erilaiset toteutusmallit.

Vastaus:
Kolme erilaista suoritusmuotoa käytettävissä Pigissa,
• Interaktiivinen tila tai Grunt-tila.
Interaktiivinen tila tai grunt-tila: Sian interaktiivinen kuori tunnetaan nimellä grunt shell. Jos tiedostoa ei määritetä suoritettavaksi Pigissä, se käynnistyy.
• Erätila tai komentosarjatila.
Sika suorittaa määritetyt komennot komentotiedostossa.
• Sulautettu tila
Voimme upottaa Pig-ohjelmia Java-ohjelmiin ja voimme ajaa ohjelmia Java-ohjelmista.

7. Selitä sianskriptin suoritussuunnitelmista (looginen ja fyysinen suunnitelma)

Vastaus:
Loogiset ja fyysiset suunnitelmat luodaan sian komentosarjan suorittamisen aikana. Sian komentosarjat perustuvat tulkkitarkistuksiin. Looginen suunnitelma tuotetaan semanttisella tarkistuksella ja perusjäsentämisellä, eikä tietojenkäsittelyä tapahdu loogisen suunnitelman luomisen aikana. Jokaiselle Pig-komentosarjan riville suoritetaan operaattoreiden syntaksitarkistus ja luodaan looginen suunnitelma. Aina kun virhe ilmenee komentosarjasta, poikkeus heitetään ja ohjelman suorittaminen loppuu. Jokaisella komentosarjan lauseella on oma looginen suunnitelmansa.
Looginen suunnitelma sisältää operaattorikokoelman komentosarjasta, mutta ei sisällä operaattoreiden välisiä reunoja.
Kun looginen suunnitelma on luotu, komentosarjan suorittaminen siirtyy fyysiseen suunnitelmaan, jossa on kuvaus fyysisistä operaattoreista, joita Apache Pig käyttää, Pig-komentosarjan suorittamiseen. Fyysinen suunnitelma muistuttaa enemmän tai vähemmän sarjaa MapReduce-töitä, mutta silloin suunnitelmassa ei ole viitteitä siitä, miten se suoritetaan MapReduce-sovelluksessa. Fyysisen suunnitelman luomisen aikana ryhmälooginen operaattori muunnetaan 3 fyysiseksi operaattoriksi, nimittäin - paikallinen järjestely, globaali uudelleenjärjestely ja paketti. Kuormaus- ja säilytystoiminnot ratkaistaan ​​yleensä fyysisessä suunnitelmassa.

8. Mitä virheenkorjaustyökaluja käytetään Apache Pig -komentosarjoihin?

Vastaus:
Kuvaile ja selitä ovat Apache Pig -sovelluksen tärkeät vianetsintäapuohjelmat.
• Selitä-apuohjelma on hyödyllinen Hadoop-kehittäjille yritettäessä virheenkorjausta tai PigLatin-komentosarjojen optimointia. selitä voidaan soveltaa tiettyyn skriptin aliakseen tai sitä voidaan soveltaa koko skriptiin grunt interaktiivisessa kuoressa. selitä-apuohjelma tuottaa useita kaavioita tekstimuodossa, jotka voidaan tulostaa tiedostoon.
• Kuvaile virheenkorjausohjelma on hyödyllinen kehittäjille kirjoitettaessa Pig-skriptejä, koska se näyttää komentosarjan suhteen kaavan. Aloittelijoille, jotka yrittävät oppia Apache Pig, voi kuvata apuohjelman avulla ymmärtää, kuinka kukin operaattori muuttaa tietoja. Sian käsikirjoituksella voi olla useita kuvauksia.

9. Mitkä ovat jotkut Apache Pig -käyttötapauksista, joita voit ajatella?

Vastaus:
• Apache Pig big data -työkalua käytetään etenkin iteratiivisessa prosessoinnissa, raakatiedon tutkimuksessa ja perinteisissä ETL-dataputkissa. Koska Sika voi toimia tilanteissa, joissa kaavaa ei tunneta, se on epäjohdonmukainen tai epätäydellinen, sitä käyttävät laajasti tutkijat, jotka haluavat käyttää tietoja ennen kuin ne puhdistetaan ja ladataan tietovarastoon.
• Esimerkiksi käyttäytymisen ennustamismallien luomiseksi verkkosivusto voi käyttää sitä seuraamaan kävijöiden reagointia erityyppisiin mainoksiin, kuviin, artikkeleihin jne.

10. Korosta ero ryhmän ja ryhmän operaattoreiden välillä sikassa.

Vastaus:
Molemmat operaattorit voivat työskennellä yhdessä tai useammassa suhteessa. Ryhmä- ja ryhmäoperaattorit ovat identtisiä. Ryhmäoperaattori kerää kaikki tietueet samalla avaimella. Cogroup on ryhmän ja liittymisen yhdistelmä, se on ryhmän yleistys sen sijaan, että yhden sisääntulon tietueiden kerääminen riippuu avaimesta, se kerää n sisääntulon tietueita avaimen perusteella. Kerrallaan voimme ryhmitellä jopa 127 suhdetta.

Suositellut artikkelit

Tämä on opas Apache PIG -haastattelun kysymysluetteloon ja vastauksiin, jotta ehdokas voi helposti hakea nämä Apache PIG -haastattelua koskevat kysymykset. Tämä artikkeli koostuu kaikista hyödyllisistä Apache PIG -haastattelun kysymyksistä ja vastauksista, jotka auttavat sinua haastattelussa. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. Apache Pig vs Apache Hive
  2. 10 suosituinta haastattelua koskevaa kysymystä
  3. 8 tehokasta vaihetta valmistautua sisäiseen haastatteluun
  4. Tärkeitä vinkkejä paneelihaastattelun selviämiseen (hyödyllinen)