Spark DataFrame - DataFrame-ohjelman eri toiminnot esimerkillä

Johdatus Spark DataFrame -sovellukseen

Spark datakehyksen voidaan sanoa olevan hajautettu tietokokoelma, joka on järjestetty nimetyihin sarakkeisiin ja jota käytetään myös toimintojen, kuten suodattamisen, yhdistelmien laskemisen, ryhmittämisen, tarjoamiseen ja sitä voidaan myös käyttää Spark SQL: n kanssa. Tietokehykset voidaan luoda käyttämällä jäsenneltyjä datatiedostoja yhdessä olemassa olevien RDD-tiedostojen, ulkoisten tietokantojen ja Hive-taulukoiden kanssa. Sitä kutsutaan periaatteessa abstraktiokerrokseksi, joka on rakennettu RDD: n päälle, ja sitä seuraa myös tietojoukkojen rajapinta, joka otettiin käyttöön myöhemmissä Spark-versioissa (2.0 +). Lisäksi tietojoukkoja ei otettu käyttöön Pysparkissa, vaan vain Scalassa Sparkin kanssa, mutta Dataframe-kehyksessä näin ei ollut. Tietokehykset, joita yleisesti kutsutaan DF: ksi, ovat loogisia sarakemuotoja, jotka tekevät RDD: n kanssa työskentelystä helpompaa ja kätevämpää, ja käyttävät samalla tavalla samoja toimintoja kuin RDD. Jos puhut enemmän käsitteellisellä tasolla, se vastaa relaatiotaulukoita sekä hyviä optimointiominaisuuksia ja tekniikoita.

Kuinka luoda DataFrame?

Tietokehys luodaan yleensä jollain mainituista menetelmistä. Se voidaan luoda hyödyntämällä pesän taulukoita, ulkoisia tietokantoja, jäsenneltyjä datatiedostoja tai jopa olemassa olevien RDD-tiedostojen tapauksessa. Näillä kaikilla tavoilla voidaan luoda nämä nimetyt sarakkeet, joita kutsutaan datakehyksiksi ja joita käytetään prosessointiin Apache Sparkissa. SQLContext- tai SparkSession-sovelluksia käyttämällä voidaan luoda datakehyksiä.

Spark DataFrames -operaatiot

Spark-tietokannassa tietokehys on organisoidun datan jakaminen ja kerääminen nimettyihin sarakkeisiin, joka vastaa relaatiotietokantaa tai kaavaa tai tietokehystä kielellä, kuten R tai python, mutta rikkaammalla optimointitasolla käytettäväksi. Sitä käytetään tietyn verkkotunnuksen tyyppisen kielen tarjoamiseen, jota voidaan käyttää jäsenneltyyn tietojen käsittelyyn.

Alla mainitut ovat joitain jäsennellyn tietojenkäsittelyn perusoperaatioita käyttämällä datakehyksiä.

1. Luettaan asiakirjaa, jonka tyyppi on: JSON: Käytämme komentoa sqlContext.read.json.

Esimerkki: Oletetaan, että tiedostonimemme on student.json, niin koodipala näyttää seuraavalta:
val dfs= sqlContext.read.json(“student.json”)

Tulos: Tällöin tulosteena on, että kenttien nimet otetaan automaattisesti tiedostosta student.json.

2. Tietojen näyttäminen: Jotta näet Spark-tietokehyksissä olevat tiedot, sinun on käytettävä komentoa:
dfs.show ()

Esimerkki: Oletetaan, että tiedostonimemme on student.json, niin koodipala näyttää seuraavalta:
val dfs= sqlContext.read.json(“student.json”) dfs.show()

Tulos: Opiskelijan tiedot esitetään sinulle taulukkomuodossa.

3. printSchema-menetelmän käyttäminen: Jos olet kiinnostunut näkemään tietokehyksen rakenteen eli kaavion, käytä seuraavaa komentoa: dfs.printSchema ()

Esimerkki: Oletetaan, että tiedostonimemme on student.json, niin koodipala näyttää seuraavalta:

val dfs= sqlContext.read.json(“student.json”) dfs. printSchema ()

Tulos: Rakenne tai kaava on läsnä sinulle

4. Käytä valintamenetelmää: Jotta valintamenetelmää voidaan käyttää, seuraavaa komentoa käytetään hakemaan nimiä ja sarakkeita tietokehysluettelosta.
dfs.select ( ”sarake-name”). esittävät ()

Esimerkki: Oletetaan, että tiedostonimemme on student.json, niin koodipala näyttää seuraavalta:
val dfs= sqlContext.read.json(“student.json”) dfs.select(“name”).show()

Tulos: Nimisarakkeen arvot näkyvät.

5. Ikäsuodattimen käyttäminen: Seuraavaa komentoa voidaan käyttää etsittäessä yli 23-vuotiaita opiskelijoita.
dfs.filter (dfs (“sarakkeen nimi”)> arvo) .show ()

Esimerkki: Oletetaan, että tiedostonimemme on student.json, niin koodipala näyttää seuraavalta:
val dfs= sqlContext.read.json(“student.json”) dfs.filter(dfs(“age”)>23).show()

Tulos: Yli 23-vuotiaiden suodatettu ikä ilmestyy tuloksiin.

6. GroupBy-menetelmän käyttäminen: Seuraavaa menetelmää voidaan käyttää laskemaan samanikäisten opiskelijoiden lukumäärä.
dfs.groupBy ( ”sarake-name”). count (). esittävät ()

Esimerkki: Oletetaan, että tiedostonimemme on student.json, niin koodipala näyttää seuraavalta:
val dfs= sqlContext.read.json(“student.json”) dfs.groupBy(“age”).count().show()

7. SQL-toiminnon käyttäminen SparkSession-sovelluksessa, joka mahdollistaa sovelluksen suorittaa SQL-tyyppisiä kyselyjä ohjelmallisesti ja palauttaa siten tuloksen tietokehyksen muodossa.
spark.sql (kysely)

Esimerkki: Oletetaan, että meidän on rekisteröitävä SQL-tietokehys temp-näkymäksi sitten:
df.createOrReplaceTempView(“student”) sqlDF=spark.sql(“select * from student”) sqlDF.show()

Tulos: Opiskelijan nimellä luodaan väliaikainen näkymä ja sen päälle lisätään spark.sql-tiedosto muuntamaan se tietokehykseksi.

8. SQL-toiminnon käyttäminen Spark Session -sovelluksessa globaalissa väliaikaisessa näkymässä: Tämän avulla sovellus voi suorittaa SQL-tyyppisiä kyselyjä ohjelmallisesti ja palauttaa siten tuloksen tietokehyksen muodossa.
spark.sql (kysely)

Esimerkki: Oletetaan, että meidän on rekisteröitävä SQL-tietokehys temp-näkymäksi sitten:
df.createGlobalTempView(“student”) park.sql(“select * from global_temp.student”).show() spark.newSession().sql(“Select * from global_temp.student”).show()

Tulos: Opiskelijan nimellä luodaan väliaikainen näkymä ja sen päälle lisätään spark.sql-tiedosto muuntamaan se tietokehykseksi.

Spark DataFrame -sovelluksen edut

Tietokehys on datan hajautettu kokoelma, ja siksi tiedot on järjestetty nimetyllä sarakkeella.
Ne ovat enemmän tai vähemmän samanlaisia kuin taulukko relaatiotietokantojen tapauksessa, ja niillä on rikas optimointikokonaisuus.
Tietokehyksiä käytetään vahvistamaan SQL: ään kirjoitetut kyselyt ja myös tietokehyksen API
Sitä voidaan käyttää sekä strukturoidun että jäsentämättömän tiedon käsittelemiseen.
Katalyytin optimoijan käyttö tekee optimoinnista helpon ja tehokkaan.
Kirjastot ovat läsnä monilla kielillä, kuten Python, Scala, Java ja R.
Tätä käytetään tarjoamaan vahva yhteensopivuus pesän kanssa ja sitä käytetään suorittamaan modifioimattomia pesän kyselyjä jo olemassa olevassa pesän varastossa.
Se voi skaalata erittäin hyvin muutamasta henkilökohtaisen järjestelmän kilosta moniin petabyytteihin suurissa klustereissa.
Sitä käytetään tarjoamaan helppo integraatio muiden suurten tietotekniikoiden ja kehysten kanssa.
Niiden abstraktio, jota ne tarjoavat RDD: lle, on tehokasta ja nopeuttaa käsittelyä.

Johtopäätös - Spark DataFrame

Tässä viestissä olet oppinut erittäin kriittisen ominaisuuden Apache Sparkista, joka on tietokehykset ja niiden käyttö nykyisissä sovelluksissa sekä toiminnot ja edut. Toivottavasti olet pitänyt artikkelistamme. Pysy kuulolla näistä enemmän.

Suositellut artikkelit

Tämä on opas Spark DataFrame -sovellukseen. Tässä keskustellaan kuinka luodaan DataFrame? sen edut ja DataFramesin eri toiminnot yhdessä asianmukaisen näytekoodin kanssa. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -