Kuinka asentaa Spark?
Spark on avoimen lähdekoodin kehys analyysisovellusten ajamiseen. Se on valmistajasta riippumattomassa Apache Software Foundation -yrityksessä toimiva tietojenkäsittelykone, joka käsittelee suuria tietokokonaisuuksia tai suuria tietoja. Se on yleiskäyttöinen klusterin laskentajärjestelmä, joka tarjoaa korkean tason sovellusliittymiä Scalassa, Pythonissa, Javassa ja R. Se kehitettiin ylittämään Hadoopin MapReduce-paradigman rajoitukset. Tietotieteilijöiden mielestä Spark suorittaa 100 kertaa nopeammin kuin MapReduce, koska se voi tallentaa välimuistiin tietoja, kun taas MapReduce toimii enemmän lukemalla ja kirjoittamalla levyille. Se suorittaa muistin sisäisen prosessoinnin, mikä tekee siitä tehokkaamman ja nopeamman.
Sparkilla ei ole omaa tiedostojärjestelmää. Se käsittelee tietoja erilaisista tietolähteistä, kuten Hadoop Distributed File System (HDFS), Amazonin S3-järjestelmä, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Se voi toimia Hadoop YARN: llä (Yet Another Resource Negotiator), Mesosilla, EC2: lla, Kubernetesilla tai käyttämällä erillistä klusteritilaa. Se käyttää RDD: tä (Resilient Distributed Dataset) siirtääksesi työmäärät yksittäisille solmuille, jotka tukevat iteratiivisia sovelluksia. RDD: n takia ohjelmointi on helppoa verrattuna Hadoopiin.
Spark koostuu erilaisista komponenteista, joita kutsutaan kipinän ekosysteemikomponenteiksi.
- Spark Core: Se on Spark-sovelluksen perusta, josta muut komponentit ovat suoraan riippuvaisia. Se tarjoaa alustan monenlaisille sovelluksille, kuten ajoittamiselle, hajautetun tehtävän lähettämiselle, muistin prosessoinnille ja datan viittauksille.
- Spark Streaming: Se on komponentti, joka toimii suoratoistotiedoissa tarjoamaan reaaliaikaista analysointia. Suorat tiedot syötetään erillisiksi yksiköiksi, joita kutsutaan eriksi, jotka suoritetaan Spark Coressa.
- Spark SQL: Se on komponentti, joka toimii Spark-ytimen päällä, suorittamaan SQL-kyselyitä strukturoidulle tai osittain jäsennellylle tiedolle. Tietokehys on tapa toimia vuorovaikutuksessa Spark SQL: n kanssa.
- GraphX: Kaaviolaskentamoottori tai -kehys mahdollistaa kuvaajatietojen käsittelyn. Se tarjoaa erilaisia kaavioalgoritmeja Sparkin ajamiseen.
- MLlib: Se sisältää koneoppimisalgoritmeja, jotka tarjoavat koneoppimiskehyksen muistipohjaisessa hajautetussa ympäristössä. Se suorittaa iteratiiviset algoritmit tehokkaasti muistin sisäisen tiedonkäsittelykyvyn vuoksi.
- SparkR: Spark tarjoaa R-paketin, jolla voidaan suorittaa tai analysoida tietojoukkoja R-kuoren avulla.
Spark-ohjelmiston asentamiseen tai käyttöönottoon järjestelmissä on kolme tapaa:
- Itsenäinen tila Apache Sparkissa
- Hadoop lanka / Mesos
- SIMR (Spark in MapReduce)
Katsotaanpa käyttöönotto itsenäisessä tilassa.
Spark-erillinen käyttötapa:
Vaihe 1: Päivitä pakettihakemisto
Tämä on tarpeen päivittääksesi kaikki koneesi nykyiset paketit.
Käytä komentoa : $ sudo apt-get update
Vaihe 2: Asenna Java Development Kit (JDK)
Tämä asentaa JDK: n koneellesi ja auttaa sinua Java-sovellusten suorittamisessa.
Vaihe 3: Tarkista, onko Java asennettu oikein
Java on edellytys Apache Spark -sovellusten käyttämiselle tai käyttämiselle.
Käytä komentoa : $ java –version
Tämä kuvakaappaus näyttää Java-version ja varmistaa, että Java on koneessa.
Vaihe 4: Asenna Scala koneellesi
Kuten Spark on kirjoitettu skalaana, niin asteikko on asennettava, jotta kipinää ajaa koneessa.
Käytä komentoa: $ sudo apt-get install scala
Vaihe 5: Tarkista, onko Scala asennettu oikein
Tämä varmistaa mittakaavan onnistuneen asennuksen järjestelmään.
Käytä komentoa : $ scala –versio
Vaihe 6: Lataa Apache Spark
Lataa Apache Spark Hadoop-version mukaan https://spark.apache.org/downloads.html
Kun siirryt yllä olevaan linkkiin, ikkuna tulee näkyviin.
Vaihe 7: Valitse sopiva versio Hadoop-version mukaan ja napsauta merkittyä linkkiä.
Toinen ikkuna ilmestyy.
Vaihe 8: Napsauta merkittyä linkkiä, niin Apache-kipinä ladataan järjestelmään.
Tarkista, onko .tar.gz- tiedosto saatavissa latauskansiossa.
Vaihe 9: Asenna Apache Spark
Sparkin asentamista varten on purettava tar-tiedosto.
Käytä komentoa: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz
Sinun on vaihdettava komennossa mainittu versio ladatun version mukaan. Tässä olemme ladanneet spark-2.4.0-bin-hadoop2.7-version.
Vaihe 10: Asennusympäristömuuttuja Apache Sparkille
Käytä komentoa: $ source ~ / .bashrc
Lisää rivi : vie PATH = $ PATH: / usr / local / kipinä / roskakori
Vaihe 11: Tarkista Apache Spark -asennus
Käytä komentoa : $ spark-shell
Jos asennus onnistui, seuraava tulos tuotetaan.
Tämä tarkoittaa Apache Sparkin onnistunutta asennusta koneellesi ja Apache Spark käynnistyy Scalassa.
Sparkin käyttöönotto Hadoop-langalla:
Apache Sparkin käyttöönotossa Hadoop YARN -sovelluksessa on kaksi tilaa.
- Ryhmätila: Tässä tilassa klusterin YARN hallitsee Spark-ohjainta, joka toimii sovelluksen pääprosessin sisällä. Hakemuksen aloittamisen jälkeen asiakas voi mennä.
- Asiakastila: Tässä tilassa sovelluspäällikkö pyytää resursseja YARNilta ja Spark-ohjain suorittaa asiakasprosessissa.
Spark-sovelluksen käyttöönotto klusteritilassa käytä komentoa:
$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar
Yllä oleva komento käynnistää YARN-asiakasohjelman, joka käynnistää oletussovellus Masterin.
Spark-sovelluksen käyttöönotto asiakastilassa käytä komentoa:
$ spark-submit –master yarn –deploy –mode client mySparkApp.jar
Voit suorittaa kipinäkuoren asiakastilassa komennolla:
$ spark-shell –master yarn –deploy-mode client
Vinkkejä kipin asennuksen käyttämiseen:
- Varmista, että Java on asennettu koneeseesi ennen kipinän asentamista.
- Jos käytät scala-kieltä, varmista, että skaala on jo asennettu, ennen kuin käytät Apache Spark -sovellusta.
- Voit käyttää Pythonia myös Scalan sijaan Sparkissa tapahtuvaan ohjelmointiin, mutta se on myös esiasennettava kuten Scala.
- Voit suorittaa Apache Sparkin myös Windowsissa, mutta on suositeltavaa luoda virtuaalikone ja asentaa Ubuntu Oracle Virtual Box- tai VMWare Player -sovelluksella .
- Spark voi toimia ilman Hadoop (eli itsenäinen tila), mutta jos vaaditaan useiden solmujen asennus, tarvitaan resurssienhallintaohjelmia, kuten YARN tai Mesos.
- YARN-käyttöä käytettäessä Spark ei ole välttämätöntä asentaa kaikkiin kolmeen solmuun. Apache Spark on asennettava vain yhteen solmuun.
- Jos käytät YARN-sovellusta, jos olet samassa paikallisessa verkossa klusterin kanssa, voit käyttää asiakastilaa, kun taas jos olet kaukana, voit käyttää klusteritilaa.
Suositellut artikkelit - Spark Install
Tämä on ollut ohje Sparkin asentamisesta. Täällä olemme nähneet, kuinka Apache Spark otetaan käyttöön itsenäisessä tilassa ja resurssienhallinnan YARN päällä, ja myös joitain neuvoja ja vinkkejä mainitaan Sparkin sujuvalle asennukselle. Voit myös tarkastella seuraavaa artikkelia saadaksesi lisätietoja -
- Kuinka käyttää Spark-komentoja
- Ura Sparkissa - sinun täytyy yrittää
- Splunkin ja kipinän erot
- Spark-haastattelua koskevat kysymykset ja vastaukset
- Spark Streaming -sovelluksen edut
- Spark SQL: n liitostyypit (esimerkit)