Spark-haastattelukysymykset 12 parasta kysymystä päivitetty vuodelle 2018

Sisällysluettelo:

Anonim

Johdanto kipinähaastatteluun liittyviin kysymyksiin ja vastauksiin

Apache Spark on avoimen lähdekoodin kehys. Spark, koska se on avoimen lähdekoodin alusta, voimme käyttää useita ohjelmointikieliä, kuten Java, python, Scala, R. Verrattuna Map-Reduce-prosessin suorituskykyyn, spark auttaa parantamaan suorituskykyä. Se tarjoaa myös 100 kertaa nopeamman suorituksen muistissa kuin Map-Reduce. Kipinän prosessointitehon takia nykyään teollisuus suosii kipinää.

Joten olet vihdoin löytänyt unelmatyösi Sparkista, mutta ihmettelet, miten Spark-haastattelu saadaan halki ja mitkä voisivat olla todennäköisiä Spark-haastattelukysymyksiä vuodelle 2018. Jokainen haastattelu on erilainen ja myös työn laajuus on erilainen. Pitäen tämän mielessä olemme suunnitelleet yleisimmät Spark-haastattelua koskevat kysymykset ja vastaukset vuodelle 2018 auttamaan sinua menestymään haastattelussa.

Nämä kysymykset on jaettu kahteen osaan

Osa 1 - Spark-haastattelukysymykset (perus)

Tämä ensimmäinen osa kattaa Spark-haastattelun peruskysymykset ja vastaukset

1. Mikä on Spark?

Vastaus:
Apache Spark on avoimen lähdekoodin kehys. Se parantaa suorituskykyä kuin Map-Reduce-prosessi. Se on avoin alusta, jossa voimme käyttää useita ohjelmointikieliä, kuten Java, Python, Scala, R. Spark tarjoaa muistin suorituksen, joka on 100 kertaa nopeampi kuin Map-Reduce. Se käyttää RDD-käsitettä. RDD on joustava hajautettu tietojoukko, jonka avulla se voi tallentaa tietoja läpinäkyvästi muistiin ja jatkaa sitä vain tarvittavan levyn levittämiseen. Se vähentää aikaa käyttää tietoja muistista levyn sijasta. Nykyään teollisuus suosii Sparkia prosessointitehonsa vuoksi.

2.Ero Hadoopin ja Sparkin välillä?

Vastaus:

OminaisuuskriteeritApache SparkHadoop
Nopeus10–100 kertaa nopeampi kuin HadoopNormaali nopeus
käsittelyReaaliaikainen ja eräkäsittely, muisti, välimuistiVain eräkäsittely, Levyriippuvainen
vaikeusHelppo korkeatasoisten moduulien ansiostaVaikea oppia
ElpyminenMahdollistaa osioiden palauttamisen RDD: tä käyttämälläVikasietoinen
vuorovaikutteisuusSiinä on vuorovaikutteisia, interaktiivisia tilojaEi vuorovaikutteista tilaa paitsi Sika ja pesä, Ei iteratiivista tilaa

Normaali Hadoop-arkkitehtuuri noudattaa perustiedot Map-Reduce -toimintoa. Samasta prosessista kipinä tarjoaa suorituksen muistissa. Kartta-Pienennä-kiintolevyltä lukemisen ja kirjoittamisen sijasta, kipinä tarjoaa luku-kirjoittamisen virtuaalimuistista.

Siirrytään seuraavaan Spark-haastattelukysymykseen

3. Mitkä ovat kipinän ominaisuudet?

Vastaus:

  1. Tarjoa integrointitoiminto Hadoopin ja tiedostojen kanssa HDFS: llä. Spark voi ajaa Hadoopin päällä YARN-resurssien klusteroinnin avulla. Spark kykenee korvaamaan Hadoopin Map-Reduce-moottorin.
  2. Polyglot: Spark Tarjoa korkean tason API Java-, Python-, Scala- ja R. Spark-koodi voidaan kirjoittaa millä tahansa näistä neljästä kielestä. IT tarjoaa riippumattoman kuoren mittakaavalle (kieli, jolla Spark kirjoitetaan) ja python-tulkin. Mikä auttaa vuorovaikutuksessa kipinämoottorin kanssa? Scala-kuoriin pääsee ./bin/spark-shell- ja Python-kuorien kautta ./bin/pyspark-sovelluksen kautta asennetusta hakemistosta.
  3. Nopeus: Spark-moottori on 100 kertaa nopeampi kuin Hadoop Map-Reduce suurten tietojen käsittelyssä. Nopeus saavutetaan osioimalla hajautetun tietojenkäsittelyn yhdenmukaistamiseksi minimaalisella verkkoliikenteellä. Spark Tarjoa RDD: t (Resilient Distributed Datasets), jotka voidaan välimuistiin sijoittaa klusterin laskennasolmuihin.
  4. Useita muotoja: Sparkilla on tietolähteen sovellusliittymä. Se tarjoaa mekanismin, jolla pääsee jäsenneltyyn tietoon kipinä-SQL: n kautta. Tietolähteet voivat olla mitä tahansa, Spark luo vain mekanismin tietojen muuntamiseksi ja vetämiseksi kipinään. Spark tukee useita tietolähteitä, kuten Hive, HBase, Cassandra, JSON, Parquet, ORC.
  5. Spark tarjoaa joitain sisäänrakennettuja kirjastoja suorittamaan useita tehtäviä samasta ytimestä, kuten eräkäsittely, höyrytys, koneoppiminen, interaktiiviset SQL-kyselyt. Hadoop tukee kuitenkin vain eräkäsittelyä. Spark Provide MLIb (koneoppikirjastot), josta on apua Big-Data -kehittäjälle tietojen käsittelyssä. Tämä auttaa poistamaan riippuvuudet useista työkaluista eri tarkoituksiin. Spark tarjoaa yhteisen tehokkaan alustan tietotekniikan suunnittelijoille ja tutkijoille. Se on nopea suorituskyky ja helppo käyttää.
  6. Apache Spark viivästyy prosessin suorittamista, kunnes toimenpide on tarpeen. Tämä on yksi kipinän pääominaisuuksista. Spark lisää jokaisen muunnoksen DAG: iin (Direct Acyclic Graph) suorittamista varten, ja kun toiminta haluaa suorittaa, se laukaisee DAG: n tosiasiallisesti prosessoimaan.
  7. Reaaliaikainen suoratoisto: Apache Spark tarjoaa reaaliaikaiset laskelmat ja alhaisen viiveen, muistin suorituksen takia. Spark on suunniteltu suurille skaalautuvuuksille, kuten klusterin tuhat solmua ja useita malleja laskentaa varten.

4. Mikä on lanka?

Vastaus:
Tämä on Spark-haastattelun peruskysymykset, joita haastattelussa esitetään. YARN (vielä yksi resurssineuvottelija) on resurssienhallinta. Spark on alusta, joka tarjoaa nopean suorituksen. Spark käyttää YARN-työtä klusterin työn suorittamiseen oman sisäänrakennetun hallintaohjelman sijasta. Langan suorittamiseen on joitain määrityksiä. Ne sisältävät isäntä-, käyttöönotto-tilan, ohjaimen muistin, suorittajan muistin, suorittajan ytimet ja jonon. Seuraavassa haastattelussa esitetyt yleiset Spark-haastattelukysymykset ovat kipinän etuja:

Spark: n edut Map-Reduce-verrattuna

Sparkilla on etuja Map-Reduce -laitteeseen nähden seuraavasti: -
Muistin sisäisen prosessin kyvyn vuoksi Spark pystyy suorittamaan 10–100 kertaa nopeammin kuin Map-Reduce. Missä Map-Reduce -sovellusta voidaan käyttää datan pysyvyyteen Map and Reduce -vaiheessa.

Apache Spark tarjoaa korkean tason sisäänrakennettuja kirjastoja useiden tehtävien prosessoimiseksi samanaikaisesti eräprosessoinnin, reaaliaikaisen suoratoiston, Spark-SQL: n, jäsennellyn suoratoiston, MLib: n jne. Kanssa. Samanaikaisesti Hadoop tarjoaa vain eräkäsittelyn.
Hadoop Map-Reduce -prosessi riippuu levystä, missä Spark tarjoaa välimuistin ja muistin.

Sparkilla on sekä iteratiivinen, suorittaa laskenta useita saman tietoaineiston kanssa ja vuorovaikutteisia, suorittaa laskenta eri tietojoukkojen välillä, jos Hadoop ei tue iteratiivista laskentaa.

5. Mitä kieltä Spark tukee?

Vastaus:
Spark tuki scala, Python, R ja Java. Markkinoilla iso datakehittäjä suosii enimmäkseen skalaa ja pythonia. Jotta mittakaava voi koota koodin, tarvitsemme Set Path of scale / bin hakemiston tai tehdäksesi jar-tiedoston.

6. Mikä on RDD?

Vastaus:
RDD on joustavan hajautetun tietojoukon abstraktio, joka tarjoaa joukon elementtejä, jotka on jaettu klusterin kaikkiin solmuihin ja jotka auttavat suorittamaan useita prosesseja samanaikaisesti. RDD-kehittäjän avulla tiedot voidaan tallentaa muistiin tai välimuistiin, jotta niitä voidaan käyttää tehokkaasti toimintojen rinnakkaiseen suorittamiseen. RDD voidaan palauttaa helposti solmun vikaantumisesta.

Osa 2 - Spark-haastattelu (Advanced)

Katsokaamme nyt edistyneitä Spark-haastattelukysymyksiä.

7. Mitkä tekijät ovat vastuussa Sparkin toteuttamisesta?

Vastaus:
1. Spark tarjoaa muistin suorituksen levystä riippuvan sijaan, kuten Hadoop Map-Reduce.
2.RDD-joustava hajautettu tietojoukko, joka on useiden operaatioiden vastuullinen rinnakkaissuoritus klusterin kaikilla solmuilla.
3. Spark tarjoaa jaetun muuttujan ominaisuuden rinnakkaiseen suorittamiseen. Nämä muuttujat auttavat vähentämään tiedonsiirtoa solmujen välillä ja jakamaan kopion kaikista solmuista. Muuttujia on kaksi.
4.Lähetysmuuttuja: Tätä muuttujaa voidaan välimuistiin tallentaa kaikkien solmujen arvo
5.Kumulaattorimuuttuja: Tämä muuttuja lisätään vain, kuten laskurit ja summat.

8. Mikä on suorittajan muisti?

Vastaus:
Tämä on usein kysytyt Spark-haastattelukysymykset haastattelussa. Se on kipinän suorittajalle osoitettu kasan koko. Tätä ominaisuutta voidaan hallita spark.executor.memory -ominaisuudella –executor-memory-lipulla. Jokaisessa Spark-sovelluksessa on yksi suorittaja jokaiselle työntekijäsolmulle. Tämä ominaisuus viittaa siihen, kuinka paljon työntekijän solmujen muistia allokoidaan sovellukselle.

9. Kuinka käytät Spark Stream -sovellusta? Selitä yksi käyttötapa?

Vastaus:
Spark Stream on yksi ominaisuuksista, jotka ovat hyödyllisiä reaaliaikaisessa tapauksessa. Voimme käyttää flume, Kafka kipinöin tähän tarkoitukseen. Flume laukaisee tiedot lähteestä. Kafka säilyttää tiedot aiheeseen. Kafkasta Spark vetää tiedot virran avulla ja se siirtää tiedot D-virtaan ja suorittaa muutoksen.

Voimme käyttää tätä prosessia reaaliaikaiseen epäilyttävään tapahtumaan, reaaliaikaisiin tarjouksiin jne.

Siirrytään seuraavaan Spark-haastattelukysymykseen

10. Voimmeko käyttää Sparkia ETL-prosessiin?

Vastaus:
Kyllä, voimme käyttää kipinäympäristöä ETL-prosessiin.

11. Mikä on Spark SQL?

Vastaus:
Se on yksi erityinen kipinäkomponentti, joka tukee SQL-kyselyitä.

12. Mikä laiska arviointi?

Vastaus:
Kun työskentelemme kipinän kanssa, muutoksia ei arvioida ennen kuin suoritat toimenpiteen. Tämä auttaa optimoimaan yleisen tietojenkäsittelyn työnkulun. Määritettäessä muunnosta se lisää DAG: iin (Direct Acyclic Graph). Ja toiminnan aikana se alkaa suorittaa vaiheittaisia ​​muutoksia. Tämä on hyödyllinen Spark-haastattelukysymys, jota kysyttiin haastattelussa.

Suositeltava artikkeli

Tämä on opas luetteloon kipinähaastattelua koskevista kysymyksistä ja vastauksista, jotta ehdokas voi helposti torjua nämä kipinähaastattelua koskevat kysymykset. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja-

  1. Java vs Node JS yksinkertaistaa eroja
  2. Mongo-tietokannan haastattelukysymykset | Hyödyllisiä ja eniten kysyttyjä
  3. 15 menestyneintä R-haastattelua koskevaa kysymystä ja vastausta
  4. Perl-haastattelukysymykset ja -vastaukset
  5. SAS-järjestelmän haastattelukysymykset - 10 hyödyllistä kysymystä