Johdatus Spark-komentoihin

Apache Spark on Hadoopin päälle rakennettu kehys nopeaa laskentaa varten. Se laajentaa MapReducen käsitettä klusteripohjaisessa skenaariossa tehtävän suorittamiseksi tehokkaasti. Spark Command on kirjoitettu Scalassa.

Spark voi käyttää Hadoop-ohjelmaa seuraavilla tavoilla (katso alla):

Kuvio 1

https://www.tutorialspoint.com/

  1. Itsenäinen: Spark otetaan suoraan käyttöön Hadoopin päälle. Spark-työt kulkevat samanaikaisesti Hadoopilla ja Sparkilla.
  2. Hadoop-lanka: Spark toimii langalla ilman mitään ennakkoasennusta.
  3. Spark in MapReduce (SIMR): Spark in MapReduce -laitetta käytetään käynnistämään kipinöinti itsenäisen käyttöönoton lisäksi. SIMR: n avulla Spark voidaan käynnistää ja käyttää kuoriansa ilman minkäänlaista järjestelmänvalvojan oikeutta.

Spark-komponentit:

  1. Apache Spark Core
  2. Spark SQL
  3. Spark streaming
  4. MLIB
  5. GraphX

Joustavia hajautettuja tietoaineistoja (RDD) pidetään Spark-komentojen perustietorakenteena. RDD on luonteeltaan muuttumaton ja vain luku -tyyppinen. Kaikenlainen laskenta kipinäkomennoissa tapahtuu RDD: n muunnoksilla ja toimilla.

Kuvio 2

Google Kuva

Spark shell tarjoaa välineen käyttäjille vuorovaikutuksessa sen toimintojen kanssa. Spark-komennoilla on paljon erilaisia ​​komentoja, joita voidaan käyttää käsittelemään tietoja interaktiivisessa kuoressa.

Peruskäskykomennot

Katsotaanpa joitain alla esitetyistä Basic Spark -komennoista: -

  1. Spark-kuoren käynnistäminen:

Kuvio 3

  1. Lue tiedosto paikallisesta järjestelmästä:

Tässä “sc” on kipinäkonteksti. Koska data.txt on kotihakemistossa, se luetaan näin, muuten on määritettävä koko polku.

  1. Luo RDD yhdenmukaistamisen avulla

NewData on nyt RDD.

  1. Laske RDD-kohteita

  1. Kerätä

Tämä toiminto palauttaa kaiken RDD: n sisällön ohjainohjelmaan. Tämä on hyödyllinen virheenkorjauksessa kirjoitusohjelman eri vaiheissa.

  1. Lue ensimmäiset 3 tuotetta RDD: stä

  1. Tallenna tulostetut / käsitellyt tiedot tekstitiedostoon

Tässä "output" -kansio on nykyinen polku.

Väliset kipinökomennot

1. Suodata RDD: llä

Luodaan uusi RDD kohteille, jotka sisältävät ”kyllä”.

Transformaatiosuodatin on kutsuttava olemassa olevaan RDD: hen suodattaaksesi sanaa “kyllä”, mikä luo uuden RDD: n uuden kohdeluettelon kanssa.

2. Ketjun toiminta

Tässä suodattimen muuntaminen ja laskentatoimi toimivat yhdessä. Tätä kutsutaan ketjutoiminnaksi.

3. Lue ensimmäinen kohta RDD: stä

4. Laske RDD-osiot

Kuten tiedämme, RDD on tehty useista osioista, on tarpeen laskea ei. väliseinät. Koska se auttaa virittämisessä ja vianetsinnässä Spark-komentojen kanssa työskennellessä.

Oletusarvoisesti vähimmäismäärä ei. pf-osio on 2.

5. liittyä

Tämä toiminto yhdistää kaksi taulukkoa (taulukkoelementti on pareittain) perustuen yhteiseen avaimeen. Pariisina RDD: ssä ensimmäinen elementti on avain ja toinen elementti on arvo.

6. Välimuistin tiedosto

Välimuisti on optimointitekniikka. Välimuistissa oleva RDD tarkoittaa, että RDD pysyy muistissa, ja kaikki tulevat laskennat tehdään niille muistissa oleville RDD-tiedoille. Se säästää levyn lukemisaikaa ja parantaa suorituskykyä. Lyhyesti sanottuna, se vähentää tiedonsaantiin kuluvaa aikaa.

Tietoja ei kuitenkaan tallenneta välimuistiin, jos suoritat toiminnon yläpuolella. Tämä voidaan todistaa käymällä verkkosivulla:

http: // localhost: 4040 / varastointi

RDD välimuistiin, kun toimenpide on suoritettu. Esimerkiksi:

Vielä yksi toiminto, joka toimii välimuistin () tapaan, on edelleen olemassa (). Pysyvyys antaa käyttäjille joustavuuden antaa argumentti, joka voi auttaa tietojen välimuistiin tallentamista muistiin, levyyn tai tyhjämuistiin. Pysy ilman mitään argumentteja toimii samalla tavalla kuin välimuisti ().

Advanced kipinäkomennot

Katsotaanpa joitain edistyneemmistä Spark-komennoista, jotka on annettu alla: -

  1. Lähetä muuttuja

Broadcast-muuttuja auttaa ohjelmoijaa pitämään jokaisen klusterin koneen välimuistissa olevan ainoan muuttujan lukeman sen sijaan, että toimittaa kyseisen muuttujan kopion tehtävien mukana. Tämä auttaa vähentämään viestintäkustannuksia.

Kuvio 4

Google Kuva

Lyhyesti sanottuna Broadcastted-muuttujalla on kolme pääpiirtää:

  1. Muuttumaton
  2. Sovita muistiin
  3. Hajautettu klusteriin

  1. akut

Akkumulaattorit ovat muuttujia, jotka lisätään niihin liittyviin toimintoihin. Akkuihin on monia käyttötarkoituksia, kuten laskurit, summat jne.

Koodin varaajan nimi näkyi myös Spark UI -sovelluksessa.

  1. Kartta

Karttatoiminto auttaa iteraatiossa kaikilla RDD-riveillä. Kartassa käytettyä toimintoa käytetään jokaisessa RDD-elementissä.

Esimerkiksi RDD: ssä (1, 2, 3, 4, 6), jos käytämme ”rdd.map (x => x + 2)”, saadaan tulos muodossa (3, 4, 5, 6, 8).

  1. Flatmap

Litteä kartta toimii samalla tavalla kuin kartta, mutta kartta palauttaa vain yhden elementin, kun taas litteä kartta voi palauttaa elementtiluettelon. Siksi lauseiden jakaminen sanoiksi edellyttää litteää kuvaa.

  1. Coalesce

Tämä toiminto auttaa välttämään datan sekoittumista. Tätä käytetään olemassa olevassa osiossa siten, että vähemmän dataa sekoitetaan. Tällä tavoin voimme rajoittaa klusterin solmujen käyttöä.

Vinkkejä kipinökomentojen käyttämiseen

Alla on erilaisia ​​Spark-komentojen vinkkejä ja vinkkejä: -

  1. Sparkin aloittelijat voivat käyttää Spark-kuorta. Koska Spark-komennot on rakennettu Scalaan, Scalan kipinäkuoren käyttäminen on ehdottomasti hienoa. Python-kipinäkuorta on kuitenkin saatavana, joten jopa jotain voi käyttää, joka on perehtynyt pythoniin.
  2. Spark-kuorella on paljon vaihtoehtoja klusterin resurssien hallitsemiseksi. Komennon alapuolella voit auttaa sinua tässä:

  1. Sparkissa pitkien tietoaineistojen käsittely on tavallinen asia. Mutta asiat menevät pieleen, kun huono panos otetaan. On aina hyvä idea pudottaa huonot rivit käyttämällä Spark-suodatintoimintoa. Hyvä panoskokonaisuus on hieno tapa.
  2. Spark valitsee tietosi varten oman osion omasta. Mutta on aina hyvä käytäntö pitää silmä partitioilla ennen työn aloittamista. Eri osioiden kokeilu auttaa sinua samanaikaisesti työssäsi.

Johtopäätös - kipinökomennot:

Spark-komento on vallankumouksellinen ja monipuolinen iso datamoottori, joka voi toimia eräkäsittelyssä, reaaliaikaisessa prosessoinnissa, tietojen välimuistiin tallentamisessa jne. Sparkilla on rikas sarja koneoppimiskirjastoja, jotka voivat auttaa tietotekijöitä ja analyyttisiä organisaatioita rakentamaan vahvoja, vuorovaikutteisia ja nopeat sovellukset.

Suositellut artikkelit

Tämä on opas Spark-komentoihin. Tässä olemme keskustelleet sekä perus- että edistyneistä Spark-komennoista ja joistain välittömistä Spark-komennoista. Voit myös tarkastella seuraavaa artikkelia saadaksesi lisätietoja -

  1. Adobe Photoshop -komennot
  2. Tärkeitä VBA-komentoja
  3. Tableau-komennot
  4. Huijauskortti SQL (komennot, ilmaiset vinkit ja temput)
  5. Spark SQL: n liitostyypit (esimerkit)
  6. Kipinäkomponentit | Yleiskatsaus ja 6 suosituinta komponenttia

Luokka: