Spark SQL vs Presto - Ota selvää 7 hyödyllisestä vertailusta

Sisällysluettelo:

Anonim

Eroja Spark SQL: n ja Presto: n välillä

Presto on yksinkertaisesti sanottuna 'SQL Query Engine', alun perin kehitetty Apache Hadoopille. Se on avoimen lähdekoodin hajautettu SQL-hakukone, joka on suunniteltu interaktiivisten analyyttisten kyselyiden suorittamiseen kaiken kokoisissa tietojoukkoissa.

Spark SQL on hajautettu muistin laskentamoottori, jonka SQL-kerros on strukturoitujen ja osittain jäsenneltyjen tietojoukkojen päällä. Muistin sisäisen käsittelyn jälkeen käsittely on nopea Spark SQL: ssä.

Head of Head -vertailu Spark SQL: n ja Presto: n välillä (Infografia)

Alla on 7 suosituinta vertailua Spark SQL: n ja Presto: n välillä

Keskeiset erot Spark SQL: n ja Presto: n välillä

Alla on luettelo Presto- ja Spark SQL -sovellusten välisistä eroista

  • Apache Spark esittelee Spark SQL -nimisen ohjelmointimoduulin jäsennellyn datan käsittelemiseksi. Spark SQL sisältää koodatun abstraktion, nimeltään Data Frame, joka voi toimia hajautettuna SQL-kyselymoottorina.
  • Preston alun takana oli interaktiivisen analyysin ja lähestymistapojen mahdollistaminen kaupallisten tietovarastojen nopeudelle Facebookin kanssa vastaavien organisaatioiden koon skaalaamiseksi.
  • Spark SQL on Spark Core -laitteen päällä oleva komponentti, joka tuo käyttöön uuden tiedonkeruun nimeltään SchemaRDD (Resilient Distributed Datasets), mutta se tukee jäsenneltyä / osittain rakennettua tietoa.
  • Presto suunniteltiin vaihtoehtona työkaluille, jotka kysyvät HDFS-tietoja MapReduce-töistä, kuten Hive tai Pig, mutta Presto ei ole rajoitettu HDFS: ään.
  • Spark SQL seuraa muistin sisäistä prosessointia, mikä lisää käsittelynopeutta. Spark on suunniteltu käsittelemään monenlaisia ​​työkuormia, kuten eräkyselyt, iteratiiviset algoritmit, interaktiiviset kyselyt, suoratoistot jne.
  • Presto pystyy suorittamaan liittovaltion kyselyt. Alla on esimerkki Presto-yhdistelmäkyselyistä

Oletetaan mikä tahansa RDBMS taulukon näytteen1 kanssa

Ja HIVE pöydällä näyte2,

'Testdb' on tietokanta sekä pesässä että MYSQL: ssä. Prestoa käyttämällä voimme arvioida tietoja yhdellä kyselyllä, kun niiden liittimet on määritetty oikein alla olevan kuvan mukaisesti-

presto> hive.Testdb.sample2

Toiminto (valitse / ryhmittele ..etc)> mysql.Testdb.sample1

  • Spark SQL -arkkitehtuuri koostuu Spark SQL: stä, Schema RDD: stä ja tietokehyksestä
    • Tietokehys on kokoelma dataa; tiedot on järjestetty nimettyihin sarakkeisiin. Teknisesti se on sama kuin relaatiotietokantataulut.
    • Kaavio RDD: Spark Core sisältää erityisen tietorakenteen, nimeltään RDD. Spark SQL toimii kaavioissa, taulukoissa ja tietueissa. Siksi käyttäjä voi käyttää Schema RDD: tä väliaikaisena taulukkona. Joten käyttäjä voi kutsua tätä Schema RDD: tä datakehykseksi
  • Tietokehyksen kyvyt: Tietokehys prosessoi dataa kilobyteinä petatavuiksi yhdestä solmuklusterista useisiin solmuklustereihin,
  • Tietokehys tukee erilaisia ​​tietomuotoja (CSV, Flexiblesearch, Cassandra jne.) Ja tallennusjärjestelmiä (HDFS, HIVE-taulukot, MySQL jne.). Se voidaan integroida kaikkiin Big Data -työkaluihin / kehyksiin Spark-Coren kautta ja tarjoaa sovellusliittymän esimerkiksi kielille, kuten Python-, Java-, Scala- ja R-ohjelmointi.
  • Presto on hajautettu moottori, joka toimii klusterin kokoonpanossa. Presto -arkkitehtuuri on helppo ymmärtää ja laajennettavissa. Presto-asiakas (CLI) lähettää SQL-käskyjen päädemonikoordinaattorille, joka hallinnoi käsittelyä.
  • Prestoa käyttävät yritykset: Facebook, Netflix, Airbnd, Dropbox jne.
  • Apache Spark -käyttötapauksia löytyy aloilta, kuten rahoitus, vähittäiskauppa, terveydenhuolto ja matkailu jne. Monet sähköisen kaupan verkkosivustot, kuten eBay, Alibaba, Pinterest, käyttävät Spark SQL: tä analysoidakseen satoja petabyyttejä tietoja verkkokaupassaan.

Vertailutaulukko Spark SQL vs Presto

Alla on ylin vertailu SQL: n ja Presto: n välillä

Vertailun perusteet SQL: n ja Presnon välillä presto Spark SQL
Ekojärjestelmät / alustatHadoop, iso tietojenkäsittely jneSpark Framework, iso tietojenkäsittely jne
TarkoitusPresto on suunniteltu SQL-kyselyjen suorittamiseen Big Data -sovelluksella (valtavat työmäärät).
Facebook on suunnitellut sen käsittelemään heidän valtavia työmääriä ..
Spark SQL on yksi Apache Spark Core -komponenteista.
Spark Core on sytytinalustan perustavanlaatuinen suoritusmoottori
Perustaa
  • Presto on hajautettu SQL-kyselymoottori lemmikkitietojen tavujen käsittelemistä varten ja se toimii klusterissa, kuten perustettu sarjalla koneita.
  • Täydellinen Presto-klusterin kokoonpano sisältää koordinaattorin (Manager Node) ja useita työntekijöitä. Käyttäjä toimittaa Presto CLI -kysymykset koordinaattorille. Koordinaattori jäsentää, analysoi ja suunnittelee kyselyn suorituksen ja sitten jakaa kyselyn käsittelyn työntekijöille.
  • Spark SQL -asetus on poissa laatikosta, jos asennat ja määrität Apache Spark Clusterin
  • Apache Spark on Hadoopin alaprojekti.
  • Apaches Spark on klusteripohjainen Big Data -käsittelyteknologia, joka on suunniteltu nopeaan laskentaan.
Valmiuksia / OminaisuudetPresto sallii tietojen kyselyn useista tietolähteistä; Tiedot voivat sijaita esimerkiksi tietovarastoissa: Hive, Cassandra, RDBMS ja joissakin muissa omistamissa tietovarastoissa.Spark SQL tarjoaa joustavuuden integroinnissa muihin tietolähteisiin datakehyksiä ja JDBC-liittimiä käyttämällä.
Tuki liittimillePresto tukee kytkettäviä liittimiä. Nämä liittimet tarjoavat tietojoukkoja kyselyihin.

Alla on useita Prestossa käytettävissä olevia liittimiä, kun taas Presto tarjoaa mahdollisuuden yhdistää myös mukautettuihin liittimiin.
Alla on joitain liittimiä, joita se tukee

  • Hadoop / Hive
  • Cassandra
  • Teradata
  • PostgreSQL
  • Oracle jne

Tietokehyksen käyttöliittymä sallii eri tietolähteiden työskennellä Spark SQL: ssä.
Spark SQL sisältää palvelinmoodin, jossa on standardit JDBC- ja ODBC-yhteydet.
Yhdistetyt kyselytPresto tukee yhdistettyjä kyselyjä. Presto voidaan konfiguroida muodostamaan yhteys eri tietokantoihin ja konfiguroimaan sen; sen CLI: tä voidaan käyttää 'yhdistettyjen kyselyiden' käynnistämiseen.
Yhdessä Presto-kyselyssä käyttäjä voi yhdistää useiden tietolähteiden tietoja ja suorittaa kyselyn.
Spark SQL: ssä on sisäänrakennettu ominaisuus yhteydenpitoon muihin tietokantoihin käyttämällä JDBC: tä, joka on ”JDBC muihin tietokantoihin”, se auttaa yhdistämisominaisuudessa.
Spark luo tietokehykset käyttämällä JDBC: tietokantaominaisuutta hyödyntämällä scala / python-sovellusliittymää, mutta se toimii myös suoraan Spark SQL Thrift -palvelimen kanssa ja antaa käyttäjille mahdollisuuden kysellä ulkoisia JDBC-taulukoita vaivattomasti kuten muut pesän / kipinötaulukot.
Kuka käyttää?Dataanalyytikot, tietoinsinöörit, tietoteknikot jneDataanalyytikot, tietoinsinöörit, tietoteknikot, Spark-kehittäjä jne

Päätelmät -Spark SQL vs Presto

Spark SQL ja Presto ovat molemmat SQL-hajautettuja moottoreita, joita on saatavana markkinoilla.

Presto on erittäin hyödyllinen BI-tyyppisiin kyselyihin liittyen, ja Spark SQL johtaa suorituskykyyn suurissa analytiikkakyselyissä. Kun verrataan kokoonpanoon nähden, Presto on asennettu helposti kuin Spark SQL. Sekä Spark SQL että Presto ovat yhtä lailla markkinoilla ja ratkaisevat erilaisia ​​liiketoimintaongelmia.

Suositeltava artikkeli

Tämä on opas Spark SQL vs Prestoon, niiden merkitys, Head to Head -vertailu, avainerot, vertailutaulukko ja johtopäätös. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. Apache Spark vs Apache Flink - 8 hyödyllistä asiaa, jotka sinun on tiedettävä
  2. Apache Hive vs Apache Spark SQL - 13 uskomattomia eroja
  3. Paras 6 vertailua Hadoop Vs SQL: n välillä
  4. Hadoop vs Teradata - arvokkaita eroja