Asenna Spark - Täydellinen opas kipinän asentamisesta

Kuinka asentaa Spark?

Spark on avoimen lähdekoodin kehys analyysisovellusten ajamiseen. Se on valmistajasta riippumattomassa Apache Software Foundation -yrityksessä toimiva tietojenkäsittelykone, joka käsittelee suuria tietokokonaisuuksia tai suuria tietoja. Se on yleiskäyttöinen klusterin laskentajärjestelmä, joka tarjoaa korkean tason sovellusliittymiä Scalassa, Pythonissa, Javassa ja R. Se kehitettiin ylittämään Hadoopin MapReduce-paradigman rajoitukset. Tietotieteilijöiden mielestä Spark suorittaa 100 kertaa nopeammin kuin MapReduce, koska se voi tallentaa välimuistiin tietoja, kun taas MapReduce toimii enemmän lukemalla ja kirjoittamalla levyille. Se suorittaa muistin sisäisen prosessoinnin, mikä tekee siitä tehokkaamman ja nopeamman.

Sparkilla ei ole omaa tiedostojärjestelmää. Se käsittelee tietoja erilaisista tietolähteistä, kuten Hadoop Distributed File System (HDFS), Amazonin S3-järjestelmä, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Se voi toimia Hadoop YARN: llä (Yet Another Resource Negotiator), Mesosilla, EC2: lla, Kubernetesilla tai käyttämällä erillistä klusteritilaa. Se käyttää RDD: tä (Resilient Distributed Dataset) siirtääksesi työmäärät yksittäisille solmuille, jotka tukevat iteratiivisia sovelluksia. RDD: n takia ohjelmointi on helppoa verrattuna Hadoopiin.

Spark koostuu erilaisista komponenteista, joita kutsutaan kipinän ekosysteemikomponenteiksi.

Spark Core: Se on Spark-sovelluksen perusta, josta muut komponentit ovat suoraan riippuvaisia. Se tarjoaa alustan monenlaisille sovelluksille, kuten ajoittamiselle, hajautetun tehtävän lähettämiselle, muistin prosessoinnille ja datan viittauksille.
Spark Streaming: Se on komponentti, joka toimii suoratoistotiedoissa tarjoamaan reaaliaikaista analysointia. Suorat tiedot syötetään erillisiksi yksiköiksi, joita kutsutaan eriksi, jotka suoritetaan Spark Coressa.
Spark SQL: Se on komponentti, joka toimii Spark-ytimen päällä, suorittamaan SQL-kyselyitä strukturoidulle tai osittain jäsennellylle tiedolle. Tietokehys on tapa toimia vuorovaikutuksessa Spark SQL: n kanssa.
GraphX: Kaaviolaskentamoottori tai -kehys mahdollistaa kuvaajatietojen käsittelyn. Se tarjoaa erilaisia kaavioalgoritmeja Sparkin ajamiseen.
MLlib: Se sisältää koneoppimisalgoritmeja, jotka tarjoavat koneoppimiskehyksen muistipohjaisessa hajautetussa ympäristössä. Se suorittaa iteratiiviset algoritmit tehokkaasti muistin sisäisen tiedonkäsittelykyvyn vuoksi.
SparkR: Spark tarjoaa R-paketin, jolla voidaan suorittaa tai analysoida tietojoukkoja R-kuoren avulla.

Spark-ohjelmiston asentamiseen tai käyttöönottoon järjestelmissä on kolme tapaa:

Itsenäinen tila Apache Sparkissa
Hadoop lanka / Mesos
SIMR (Spark in MapReduce)

Katsotaanpa käyttöönotto itsenäisessä tilassa.

Spark-erillinen käyttötapa:

Vaihe 1: Päivitä pakettihakemisto

Tämä on tarpeen päivittääksesi kaikki koneesi nykyiset paketit.

Käytä komentoa : $ sudo apt-get update

Vaihe 2: Asenna Java Development Kit (JDK)

Tämä asentaa JDK: n koneellesi ja auttaa sinua Java-sovellusten suorittamisessa.

Vaihe 3: Tarkista, onko Java asennettu oikein

Java on edellytys Apache Spark -sovellusten käyttämiselle tai käyttämiselle.

Käytä komentoa : $ java –version

Tämä kuvakaappaus näyttää Java-version ja varmistaa, että Java on koneessa.

Vaihe 4: Asenna Scala koneellesi

Kuten Spark on kirjoitettu skalaana, niin asteikko on asennettava, jotta kipinää ajaa koneessa.

Käytä komentoa: $ sudo apt-get install scala

Vaihe 5: Tarkista, onko Scala asennettu oikein

Tämä varmistaa mittakaavan onnistuneen asennuksen järjestelmään.

Käytä komentoa : $ scala –versio

Vaihe 6: Lataa Apache Spark

Lataa Apache Spark Hadoop-version mukaan https://spark.apache.org/downloads.html

Kun siirryt yllä olevaan linkkiin, ikkuna tulee näkyviin.

Vaihe 7: Valitse sopiva versio Hadoop-version mukaan ja napsauta merkittyä linkkiä.

Toinen ikkuna ilmestyy.

Vaihe 8: Napsauta merkittyä linkkiä, niin Apache-kipinä ladataan järjestelmään.

Tarkista, onko .tar.gz- tiedosto saatavissa latauskansiossa.

Vaihe 9: Asenna Apache Spark

Sparkin asentamista varten on purettava tar-tiedosto.

Käytä komentoa: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Sinun on vaihdettava komennossa mainittu versio ladatun version mukaan. Tässä olemme ladanneet spark-2.4.0-bin-hadoop2.7-version.

Vaihe 10: Asennusympäristömuuttuja Apache Sparkille

Käytä komentoa: $ source ~ / .bashrc

Lisää rivi : vie PATH = $ PATH: / usr / local / kipinä / roskakori

Vaihe 11: Tarkista Apache Spark -asennus

Käytä komentoa : $ spark-shell

Jos asennus onnistui, seuraava tulos tuotetaan.

Tämä tarkoittaa Apache Sparkin onnistunutta asennusta koneellesi ja Apache Spark käynnistyy Scalassa.

Sparkin käyttöönotto Hadoop-langalla:

Apache Sparkin käyttöönotossa Hadoop YARN -sovelluksessa on kaksi tilaa.

Ryhmätila: Tässä tilassa klusterin YARN hallitsee Spark-ohjainta, joka toimii sovelluksen pääprosessin sisällä. Hakemuksen aloittamisen jälkeen asiakas voi mennä.
Asiakastila: Tässä tilassa sovelluspäällikkö pyytää resursseja YARNilta ja Spark-ohjain suorittaa asiakasprosessissa.

Spark-sovelluksen käyttöönotto klusteritilassa käytä komentoa:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Yllä oleva komento käynnistää YARN-asiakasohjelman, joka käynnistää oletussovellus Masterin.

Spark-sovelluksen käyttöönotto asiakastilassa käytä komentoa:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Voit suorittaa kipinäkuoren asiakastilassa komennolla:

$ spark-shell –master yarn –deploy-mode client

Vinkkejä kipin asennuksen käyttämiseen:

Varmista, että Java on asennettu koneeseesi ennen kipinän asentamista.
Jos käytät scala-kieltä, varmista, että skaala on jo asennettu, ennen kuin käytät Apache Spark -sovellusta.
Voit käyttää Pythonia myös Scalan sijaan Sparkissa tapahtuvaan ohjelmointiin, mutta se on myös esiasennettava kuten Scala.
Voit suorittaa Apache Sparkin myös Windowsissa, mutta on suositeltavaa luoda virtuaalikone ja asentaa Ubuntu Oracle Virtual Box- tai VMWare Player -sovelluksella .
Spark voi toimia ilman Hadoop (eli itsenäinen tila), mutta jos vaaditaan useiden solmujen asennus, tarvitaan resurssienhallintaohjelmia, kuten YARN tai Mesos.
YARN-käyttöä käytettäessä Spark ei ole välttämätöntä asentaa kaikkiin kolmeen solmuun. Apache Spark on asennettava vain yhteen solmuun.
Jos käytät YARN-sovellusta, jos olet samassa paikallisessa verkossa klusterin kanssa, voit käyttää asiakastilaa, kun taas jos olet kaukana, voit käyttää klusteritilaa.

Suositellut artikkelit - Spark Install

Tämä on ollut ohje Sparkin asentamisesta. Täällä olemme nähneet, kuinka Apache Spark otetaan käyttöön itsenäisessä tilassa ja resurssienhallinnan YARN päällä, ja myös joitain neuvoja ja vinkkejä mainitaan Sparkin sujuvalle asennukselle. Voit myös tarkastella seuraavaa artikkelia saadaksesi lisätietoja -

Kuinka käyttää Spark-komentoja
Ura Sparkissa - sinun täytyy yrittää
Splunkin ja kipinän erot
Spark-haastattelua koskevat kysymykset ja vastaukset
Spark Streaming -sovelluksen edut
Spark SQL: n liitostyypit (esimerkit)

Asenna Spark - Täydellinen opas kipinän asentamisesta

Sisällysluettelo:

Kuinka asentaa Spark?

Spark koostuu erilaisista komponenteista, joita kutsutaan kipinän ekosysteemikomponenteiksi.

Spark-ohjelmiston asentamiseen tai käyttöönottoon järjestelmissä on kolme tapaa:

Spark-erillinen käyttötapa:

Vaihe 1: Päivitä pakettihakemisto

Vaihe 2: Asenna Java Development Kit (JDK)

Vaihe 3: Tarkista, onko Java asennettu oikein

Vaihe 4: Asenna Scala koneellesi

Vaihe 5: Tarkista, onko Scala asennettu oikein

Vaihe 6: Lataa Apache Spark

Vaihe 7: Valitse sopiva versio Hadoop-version mukaan ja napsauta merkittyä linkkiä.

Vaihe 8: Napsauta merkittyä linkkiä, niin Apache-kipinä ladataan järjestelmään.

Vaihe 9: Asenna Apache Spark

Vaihe 10: Asennusympäristömuuttuja Apache Sparkille

Vaihe 11: Tarkista Apache Spark -asennus

Sparkin käyttöönotto Hadoop-langalla:

Vinkkejä kipin asennuksen käyttämiseen:

Suositellut artikkelit - Spark Install

Keskimääräinen kaava - Kuinka laskea keskiarvo (esimerkit, laskin)

Muistettavia tapoja kiittää pomoasi. - edu CBA

10 parasta tehokasta tapaa käydä tapaamisia työntekijöiden kanssa yhdessä

Mittaustyökalu Illustratorissa - Opi käyttämään Illustrator-mittaustyökalua

Mediaani Excelissä (kaava, esimerkki) - Kuinka laskea mediaani?

GridBagLayout Java - Ohjelma GridBagLayout-sovelluksen toteuttamiseksi Java-ohjelmassa

Harmaahattu Python: Turvallisuus epäselvyyden kautta - eduCBA

Suuri kyky - 10 ajattelevaa vinkkiä HR-johtajille hyvien kykyjen löytämiseksi

Kaaviot R: ssä Graafityypit tutkimus- ja esimerkkeissä toteutuksella

Gridlayout Java - Rakennustyypit - Esimerkki toteutuksesta

BKT vs. BKTL - Kuusi parasta opittavaa eroa (infografian kanssa)

Yleinen lehti vs. pääkirja - 9 parasta eroa (infografian kanssa)

Gantt-taulukko taulukossa - Tärkeys ja vaiheet Gantt-kaavion luomiseen

BKT: n deflaattorikaava - Laskin (esimerkkejä Excel-mallilla)

Toiminnot R: ssä Erityyppiset funktiot R: ssä syntaksin ja esimerkkien kanssa