Johdatus PySpark SQL: ään

Jotkut aloittelevista ohjelmoijista eivät olisi tietoisia PySpark SQL: stä. Ennen kuin käydään läpi PySpark SQL, meillä tulisi olla idea siitä, mikä on Spark SQL. Aloitetaan Spark SQL: llä. Se on Apache Spark -moduuli. Spark SQL toimi strukturoidun tiedon kanssa. PySpark SQL on kehitetty tukemaan Pythonia Sparkissa.

PySpark SQL on Pythonin yhteistyö Spark SQL: n kanssa. Sitä käytetään pääasiassa jäsennellyn ja osittain jäsennellyn tiedon käsittelyssä. Sen tarjoama sovellusliittymä voi lukea dataa useista lähteistä ja nämä tietolähteet voivat olla eri tietomuodoissa.

Mikä on PySpark SQL?

Se on työkalu pythonin tukemiseen Spark SQL: llä. Se on kehitetty tukemaan Python Sparkissa. PySparkin oikean ymmärtämisen edellyttävät Pythonin, Big Data & Sparkin tuntemusta. PySpark SQL on hitaasti saavuttanut suosiota tietokantaohjelmoijissa tärkeiden ominaisuuksiensa vuoksi.

PySpark SQL toimii hajautetussa järjestelmässä, ja on myös skaalattavaa, miksi sitä käytetään voimakkaasti tietojenkäsittelyssä. PySpark SQL: ssä koneoppimisen tarjoaa python-kirjasto. Tämä Python-kirjasto tunnetaan koneoppimiskirjasto.

PySpark SQL: n ominaisuudet

Jotkut PySpark SQL: n tärkeistä ominaisuuksista on annettu alla:

  • Nopeus: Se on paljon nopeampi kuin perinteiset suuret tietojenkäsittelykehykset, kuten Hadoop.
  • Tehokas välimuisti: PySpark tarjoaa yksinkertaisen ohjelmointikerroksen, joka auttaa välimuistissa kuin muut kehysten välimuisti.
  • Reaaliaika: Laskenta PySpark SQL: ssä tapahtuu muistissa, minkä vuoksi se on reaaliaikainen.
  • Käyttöönotto: Se voidaan ottaa käyttöön Hadoopin tai oman klusterinhallinnan kautta.
  • Polyglot: Se tukee ohjelmointia Scala, Java, Python ja R.

Sitä käytetään suurissa tiedoissa, ja missä on suuria tietoja, siihen liittyy dataanalytiikkaan liittyviä tietoja. Se on Big Data Analyticsin markkinoiden kuumin työkalu.

PySpark SQL: n tärkeimmät käyttötavat

Alla annetaan joitain aloja, joilla Pysparkia käytetään suurimmassa osassa:

Verkkokauppateollisuus

Verkkokaupan alalla PySpark lisää merkittävää roolia. Sitä käytetään parantamaan käyttäjien saavutettavuutta tarjoamalla tarjouksia kohderyhmille ja mainostamalla aitoja asiakkaita. E-kaupat, kuten eBay, Alibaba, Flipkart, Amazon, jne. Käyttävät sitä aitojen tietojen saamiseen markkinointitarkoituksiin.

tiedotusvälineet

Eri mediaalan teollisuudenalat, kuten Youtube, Netflix, Amazon, jne. Käyttävät suurimmassa osassa PySparkia suurten tietojen käsittelyyn, jotta ne saataisiin käyttäjien saataville. Tämä tietojen käsittely tapahtuu reaaliajassa palvelinpuolen sovelluksille.

pankkitoiminta

Pankkitoiminta on toinen tärkeä ala, jolla PySparkia käytetään erittäin laajalla tasolla. Se auttaa finanssialaa käsittelemään reaaliaikaisia ​​tapahtumia miljoonien levyjen käsittelyä, mainostamista aitoille asiakkaille, luottoriskien arviointia jne. Varten.

PySpark-moduulit

Joitakin tärkeitä luokkia ja niiden ominaisuuksia on esitetty alla:

  • pyspark.sql.SparkSession: Tämän luokan avulla ohjelmoijat voivat ohjelmoida Sparkissa DataFrame- ja SQL-toiminnoilla. SparkSession luodaan DataFrame-sovellukseen, rekisteröi DataFrame taulukoiksi, välimuistitaulukoiksi ja suorittaa SQL-taulukot.
  • pyspark.sql.DataFrame: DataFrame-luokalla on tärkeä rooli hajautetussa tiedonkeruussa. Nämä tiedot on ryhmitelty nimettyihin sarakkeisiin. Spark SQL DataFrame on samanlainen kuin relaatiotietotaulukko. DataFrame voidaan luoda käyttämällä SQLContext-menetelmiä.
  • pyspark.sql.Sarakkeet: DataFrame- sarakkeita voidaan luoda tällä luokalla.
  • pyspark.sql.Row: Rivi DataFrame-sovelluksessa voidaan luoda tällä luokalla.
  • pyspark.sql.GroupedData: GroupedData-luokka tarjoaa ryhmäBy (): n luomat yhdistämismenetelmät.
  • pyspark.sql.DataFrameNaFunctions: Tämä luokka tarjoaa toiminnot puuttuvien tietojen käsittelemiseksi.
  • pyspark.sql.DataFrameStatFunctions: Tilastotoiminnot ovat saatavilla Spark SQL: n DataFrames-kehyksellä. Tämä luokka tarjoaa tilastotoimintojen toiminnallisuuden.
  • pyspark.sql.functions: Monet Spark-laitteen sisäänrakennetut toiminnot ovat käytettävissä DataFrames-kehyksen kanssa. Jotkut sisäänrakennetut toiminnot on annettu alla:
Sisäänrakennetut menetelmätSisäänrakennetut menetelmät
abs (col)paikantaa (osa, str, pos = 1)
acos (col)loki (arg1, arg2 = ei mitään)
add_kuukaudet (alku, kuukaudet)log10 (col)
approxCountDistinct (sarake, res = ei mitään)log1p (col)
array ((työtoverit))log2 (col)
array_contains (col, arvo)alempi (col)
ASC (col)ltrim (col)
ASCII (col)max (col)
asin (col)MD5 (col)
rusketuskeskiarvo (sar)
ATAN2min (col)
avgminuutti (sar)
base64monotonically_increasing_id ()
astiakk (sar)
bitwiseNotkuukausien välillä (päiväys1, päiväys2)
Lähettäänanvl (col1, col2)
Broundseuraava_päivä (päivämäärä, päivä viikko)
CBRTntile (n)
katostapercent_rank ()
kasvavat yhteen ((col))posexplode (col)
col (col)pow (col1, col2)
collect_list (col)neljännes (sar)
collect_set (col)radiaaneina (col)
sarake (col)rand (siemen = Ei
concat (* työtoverit)randn (siemenet = ei mitään)
concat_ws (syyskuu, * col)rank ()
konv (col, fromBase, toBase)regexp_extract (str, kuvio, idx)
corr (col1, col2)regexp_replace (str, kuvio, korvaava)
cos (col)toista (sarake, n)
cosh (col)käänteinen (col)
count (sar)rint (col)
countDistinct (sarakkeet, * sarakkeet)pyöreä (col, asteikko = 0)
covar_pop (col1, col2)ROW_NUMBER ()
covar_samp (col1, col2)rpad (col, len, pad)
CRC32 (col)rtrim (col)
create_map (* työtoverit)toinen (col)
cume_dist ()SHA1 (col)
CURRENT_DATE ()sha2 (col, numBits)
current_timestamp ()shiftLeft (col, numBits)
päiväys_add (aloitus, päivät)shiftRight (col, numBits)
päivämäärämuoto (päivämäärä, muoto)shiftRightUnsigned (sarake, numerot)
date_sub (alku, päivät)signum (col)
päivätty (loppu, alku)sin (sar)
dayofmonth (col)sinh (col)
dayofyear (col)koko (col)
purkaa (col, charset)vinous (col)
astetta (col)sort_array (col, asc = totta)
dense_rank ()Soundex (col)
laskeva (col)spark_partition_id ()
koodaa (sarake, merkistö)split (str, kuvio)
exp (col)sqrt (col)
räjähtää (col)stddev (col)
expm1 (col)stddev_pop (col)
expr (str)stddev_samp (col)
kertoma (col)struct (* työtoverit)
ensimmäinen (col, ignorenulls = vääriä)substring (str, pos, len)
lattia (sar)osamerkkijono (str, raja, laske)
muoto_numero (sarake, d)summa (col)
format_string (muoto, * sarakkeet)sumDistinct (col)
from_json (col, schema, options = ())tan (col)
from_unixtime (aikaleima, muoto = 'vvv-kk-pp PP: mm: ss')toDegrees (col)
from_utc_timestamp (aikaleima, tz)toRadians (col)
get_json_object (col, polku)TO_DATE (col)
Suurin (* työtoverit)to_json (col, options = ())
ryhmittely (col)to_utc_timestamp (aikaleima, tz)
grouping_id (* työtoverit)kääntää (srcCol, vastaava, korvata)
hash (* työtoverit)trim (sar)
hex (työtoverit)trunc (päiväys, muoto)
tunti (col)udf (f, returnType = StringType)
hypotyyppi (col1, col2)unbase64 (col)
initcap (col)unhex (col)
input_file_name ()unix_timestamp (aikaleima = Ei mitään, muoto = 'vvv-kk-pp PP: mm: ss')
instr (str, substr)ylempi (col)
isNaN (col)var_pop (col)
isnull (col)var_samp (col)
json_tuple (sarake, * kentät)varianssi (col)
huipukkuus (col)weekofyear (col)
viive (col, count = 1, oletus = ei mitään)milloin (ehto, arvo)
viimeinen (col, ignorenulls = vääriä)ikkuna (timeColumn, windowDuration, slideDuration = Ei mitään, startTime = Ei mitään)
last_day (päivämäärä)vuosi (sar)
lyijy (col, count = 1, oletus = ei mitään)vähiten (* cols), valaistu (col)
pituus (col)levenshtein (vasen, oikea)

pyspark.sql.types: Nämä luokkatyypit, joita käytetään tietotyyppimuunnossa. Tätä luokkaa käyttämällä SQL-objekti voidaan muuntaa natiiviksi Python-objektiin.

  • pyspark.sql.streaming: Tämä luokka käsittelee kaikki kyselyt, jotka suorittavat jatkuvat taustalla. Kaikki nämä suoratoistossa käytetyt menetelmät ovat valtiottomia. Edellä mainitut sisäänrakennetut toiminnot ovat käytettävissä dataFrame-sovellusten kanssa. Näitä toimintoja voidaan käyttää viittaamalla funktiokirjastolle.
  • pyspark.sql.Window: Kaikkia tämän luokan tarjoamia menetelmiä voidaan käyttää DataFrames-ikkunoiden määrittelemiseen ja työskentelyyn.

johtopäätös

Se on yksi keinoälyn ja koneoppimisen alalla käytetyistä työkaluista. Yhä useammat yritykset käyttävät sitä analytiikkaan ja koneoppimiseen. Sen ammattitaitoiset ammattilaiset vaativat enemmän tulevaisuudessa.

Suositellut artikkelit

Tämä on opas PySpark SQL: ään. Tässä keskustellaan siitä, mitä pyspark SQL on, sen ominaisuuksista, pääkäytöistä, moduuleista ja sisäänrakennetuista menetelmistä. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. Spark DataFrame
  2. Spark-haastattelukysymykset
  3. SQL-päivämäärätoiminto
  4. SQL-lauseke
  5. Apache Spark -arkkitehtuuri kahdella toteutuksella
  6. Kuinka käyttää DISTINCT-ohjelmaa Oraclessa?