Yleiskatsaus kipinäkomponenteista

Kuvittele, että sinulla on käsillä 1000 tehtävää ja hyvin vähän aikaa kaikkien suorittamiseen. Joku tarjoaa sinulle apua tarjoamalla resursseja, jotka voivat ottaa joitain tehtäviä käteltäsi ja tehdä niitä samanaikaisesti kanssasi niin, että kaikki tehtävät suoritetaan ajallaan. Että joku on Spark sinulle laskennallisessa mielessä. Apache Spark on avoimen lähdekoodin ja hajautettu klusterin laskennan kehys Big Datalle, ja se tarjoaa optimoidun lähestymistavan analysointiin suurissa tietojoukoissa. Se toimii 100 kertaa nopeammin kuin Hadoop ja tarjoaa erilaisia ​​kirjastoja erilaisiin tarkoituksiin, kuten SQL-toimintojen suorittamiseen, ML: ään, suoratoistoon, kuvaajakäsittelyyn jne. Alla näemme kipinän eri komponentit yksityiskohtaisesti.

Kipinän tärkeimmät komponentit

Tällä hetkellä Spark Ekosysteemissä on 6 komponenttia, jotka ovat Spark Core, Spark SQL, Spark Streaming, Spark MLlib, Spark GraphX ​​ja SparkR. Katsotaanpa mitä nämä komponentit tekevät.

1. Spark Core

Spark Core on, kuten nimestä voi päätellä, Spark-prosessin ydinyksikkö. Se huolehtii tehtävien ajoittamisesta, vikojen palautuksesta, muistin hallinnasta ja syöttö- ja lähtötoiminnoista jne. Ajattele sitä jonkinlaisena kuin tietokoneen CPU. Se tukee ohjelmointikieliä, kuten Java, Scala, Python ja R, ja tarjoaa sovellusliittymät kullekin kielelle, joiden avulla voit rakentaa ETL-työsi tai tehdä analytiikkaa. Kaikilla muilla Spark-komponenteilla on omat sovellusliittymät, jotka on rakennettu Spark Core -sovelluksen päälle. Rinnakkaiskäsittelyominaisuuksiensa ja muistin sisäisen laskennan takia Spark pystyy käsittelemään kaikenlaista työtaakkaa.

Spark Core sisältää erityyppisen tietorakenteen, nimeltään RDD (Resilient Distributed Dataset), joka jakaa tiedot klusterin kaikille solmuille. RDD: t työskentelevät Lazy-arviointimenetelmässä, jossa laskenta muistetaan ja suoritetaan vain tarvittaessa. Tämä auttaa prosessin optimoinnissa laskemalla vain tarvittavat objektit.

2. Spark SQL

Jos olet työskennellyt tietokantojen kanssa, ymmärrät SQL: n merkityksen. Eikö olisi erityisen huolestuttavaa, jos sama SQL-koodi toimii N-kertaa nopeammin jopa suuremmassa aineistossa? Spark SQL auttaa sinua käsittelemään Spark-tietoja SQL: n avulla. Se tukee JDBC- ja ODBC-yhteyksiä, jotka luovat yhteyden Java-objektien ja olemassa olevien tietokantojen, tietovarastojen ja yritystietovälineiden välille. Spark sisältää jotain nimeltään Dataframes, joka on jäsennelty tiedonkeruu sarakkeiden ja rivien muodossa.

Spark antaa sinun käsitellä näitä tietoja SQL: n avulla. Tietokehykset vastaavat relaatiotaulukoita ja ne voidaan rakentaa mistä tahansa ulkoisista tietokannoista, jäsennellyistä tiedostoista tai jo olemassa olevista RDD-tiedostoista. Tietokehyksillä on kaikki RDD: n ominaisuudet, kuten muuttumattomat, joustavat, muistissa olevat, mutta ylimääräinen ominaisuus on rakenne ja helppo työskennellä. Dataframe API on saatavana myös Scala-, Python-, R- ja Java-versioina.

3. Spark streaming

Tietojen suoratoisto on tekniikka, jossa prosessoidaan jatkuva reaaliaikaisen tiedon virta. Se vaatii kehyksen, joka tarjoaa alhaisen viiveen analyysille. Spark Streaming tarjoaa tämän ja myös suuren suorituskyvyn, vikasietoisen ja skaalautuvan sovellusliittymän datan käsittelemiseen reaaliajassa. Se on otettu diskreettisesti virtaan (DStream), joka edustaa datavirtaa, joka on jaettu pieniin eriin. DStream on rakennettu RDD: lle, joten Spark Streaming toimii saumattomasti muiden kipinäkomponenttien kanssa. Jotkut Sparkin merkittävimmistä käyttäjistä.

Suoratoisto on Netflix, Pinterest ja Uber. Spark Streaming voidaan integroida Apache Kafkaan, joka on tulovirtojen irrotus- ja puskurointiympäristö. Kafka toimii keskusyksikkönä reaaliaikaisille virroille, joita käsitellään Spark Streaming -algoritmeilla.

4. Spark MLLib

Sparkin tärkein nähtävyys on laskennan massiivinen skaalaaminen ja tämä ominaisuus on tärkein vaatimus jokaiselle koneoppimisprojektille. Spark MLLib on Sparkin koneoppimiskomponentti, joka sisältää koneoppimisen algoritmeja, kuten luokituksen, regression, klusteroinnin ja yhteistyösuodatuksen. Se tarjoaa myös paikan ominaisuuksien poimintaan, ulottuvuuden pienentämiseen, muuntamiseen jne.

Voit myös tallentaa mallejasi ja ajaa niitä suuremmissa tietojoukoissa tarvitsematta huolehtia kokoongelmista. Se sisältää myös lineaarisen algebran, tilastojen ja tiedonkäsittelyn apuohjelmat. Sparkin muistin sisäisen prosessoinnin, vikasietoisuuden, skaalautuvuuden ja ohjelmoinnin helppouden vuoksi tämän kirjaston avulla voit suorittaa iteratiivisia ML-algoritmeja helposti.

5. GraphX

Graph Analytics määrittelee pohjimmiltaan graafin objektien väliset suhteet, esimerkiksi lyhin etäisyys kahden pisteen välillä. Tämä auttaa reitin optimoinnissa. Spark GraphX ​​API auttaa kuvaajan ja kuvaajan rinnakkaislaskennassa. Se yksinkertaistaa graafista analysointia ja tekee siitä nopeamman ja luotettavamman. Yksi graafisen analyysin tärkeimmistä ja tunnetuimmista sovelluksista on Google Maps.

Se selvittää etäisyyden kahden sijainnin välillä ja antaa optimaalisen reittiehdotuksen. Toinen esimerkki voi olla Facebook-ystävän ehdotukset. GraphX ​​toimii sekä kuvaajien että laskelmien kanssa. Spark tarjoaa valikoiman graafisia algoritmeja, kuten sivutaso, kytketyt komponentit, etiketin eteneminen, SVD ++, vahvasti kytketyt komponentit ja kolmioiden lukumäärä.

6. SparkR

R on yleisimmin käytetty tilastollinen kieli, joka käsittää yli 10 000 pakettia eri tarkoituksiin. Se käytti tietokehyksiä API, jonka avulla on helppo työskennellä, ja tarjoaa myös tehokkaita visualisointeja datatutkijoille analysoidakseen tietojaan perusteellisesti. R ei kuitenkaan tue rinnakkaista prosessointia ja on rajoitettu yhdellä koneella käytettävissä olevaan muistin määrään. Tässä SparkR tulee kuvaan.

Spark kehitti SparkR-nimisen paketin, joka ratkaisee R: n skaalautuvuusongelman. Se perustuu hajautettuihin tietokehyksiin ja tarjoaa myös saman syntaksin kuin R. Sparkin hajautettu prosessointimoottori ja R: n vertaansa vailla oleva interaktiivisuus, paketit, visualisointi yhdistyvät yhdessä antamaan tietotekijöille mitä he haluavat analyysejään.

johtopäätös

Koska Spark on yleiskäyttöinen kehys, se löytyy monista sovelluksista. Sparkia käytetään laajasti useimmissa suurissa datasovelluksissa suorituskyvyn ja luotettavuuden vuoksi. Kaikki nämä Spark-komponentit päivitetään jokaisessa uudessa julkaisussaan uusilla ominaisuuksilla ja helpottavat elämäämme.

Suositellut artikkelit

Tämä on opas kipinäkomponentteihin. Tässä keskustellaan kipinän yleiskatsauksesta ja kuudesta tärkeimmästä komponentista yksityiskohtaisella selityksellä. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. 5 tärkeintä pesän vaihtoehtoa
  2. Talend Open Studio -komponentit / työkalut
  3. IoT-ekosysteemin kuusi suosituinta komponenttia
  4. Mikä on Talend-tietojen integrointi etuihin?

Luokka: