Mikä on sika? - Ominaisuudet ja ymmärrys - Arkkitehtuuri ja ura

Sisällysluettelo:

Anonim

Mikä on sika?

Sika on avoimen lähdekoodin moottori, joka on osa Hadoop-ekosysteemitekniikkaa. Sika työskentelee erinomaisesti sellaisten tietojen kanssa, jotka ovat perinteisten tietokantojen tai tietovarastojen ulkopuolella. Tämä voi käsitellä puuttuvia, epätäydellisiä tai epäjohdonmukaisia ​​tietoja, joilla ei ole kaavaa. Sikalla on oma kieli tietojen käsittelyn ilmaisemiseksi, mikä on sika latinaksi.

Ymmärtäminen sika

Sika on tekniikka, jonka avulla voit kirjoittaa korkean tason, mutta erittäin rakeisia skriptejä, jonka avulla voit työskennellä tietojen kanssa, joissa kaava on joko tuntematon tai epäjohdonmukainen. Sika on avoimen lähdekoodin tekniikka, joka toimii Hadoopin päällä ja on osa erittäin elinvoimaista ja suosittua Hadoopin ekosysteemiä.

Sika toimii hyvin jäsentämättömien ja epätäydellisten tietojen kanssa, joten kaikella ei tarvitse olla perinteistä sääntöjen ja sarakkeiden asettelua.

Se on hyvin määritelty ja se voi toimia suoraan tiedostoissa HDFS: ssä (Hadoop Distributed File System).

Sika on valitsemasi tekniikka, kun haluat saada tietoja lähteestä tietovarastoon.

Esimerkiksi visuaalinen putkisto siitä, kuinka data tyypillisesti kulkee, ennen kuin voit käyttää sitä generoimaan mukavia kaavioita, joita käytät liiketoimintapäätösten tekemiseen.

Raakadatus tulee monista lähteistä, kuten anturit, matkapuhelimet jne. Käytät sitten sikaa ETL-toimenpiteen suorittamiseen. ETL tarkoittaa purkamista, muuntamista ja lataamista, kun nämä toimenpiteet on suoritettu, puhdistetut tiedot tallennetaan toiseen tietokantaan. Esimerkki tällaisesta tietokannasta olisi HDFS, joka on osa Hadoop-ohjelmaa. Hive on tietovarasto, joka toimii tämänkaltaisen tiedostojärjestelmän päällä. Pesä on se, mitä käyttäisit analyyseihin, raporttien luomiseen ja oivalluksen saamiseen.

ETL on erittäin tärkeä vaihe tietojenkäsittelyssä raakadatan puhdistamiseksi ja oikeassa muodossa tallentamiseksi tietokantaan. Ote viittaa strukturoimattoman, epäjohdonmukaisen tiedon vetämiseen puuttuvasta kentästä ja arvoista alkuperäisestä lähteestä. Muunnos tarkoittaa operaatiosarjaa, jota sovelletaan tietoihin sen puhdistamiseksi tai saamiseksi.

Hyödyllisten aggregaattitietojen ennakkolaskenta, kenttien käsittely tiettyyn muotoon sopiviksi, kaikki tämä on osa muunnoskenttien tietojen puhdistamista.

Lopuksi sika suorittaa latausoperaation, kun tämä puhdas tieto tallennetaan tietokantaan, jossa sitä voidaan edelleen analysoida. Esimerkki Pigin suorittamasta vakiotoiminnosta on lokitiedostojen puhdistaminen.

Selitä sian arkkitehtuuri

Arkkitehtuurissa on lukuisia sikaosia, mieluummin:

  • Parser : Parser käsittelee sekä Pig Scripts -tapahtumia että tarkistaa komentosarjan syntaksin, tyyppitarkistuksen ja erilaisia ​​valikoituja tarkastuksia. Lisäksi niiden tuloksena voi olla DAG (Directed Acyclic Graph), joka yleensä tarkoittaa Pig Latin -väitteitä yhdessä loogisten operaattoreiden kanssa.

Lisäksi komentosarjan sisältävät loogiset operaattorit näytetään kuten solmut, samoin kuin datavirrat, koska reunat DAG: n kautta.

  • Optimoija: Myöhemmin looginen suunnitelma (DAG) ylitetään yleensä kohti loogista optimoijaa. Se suorittaa loogiset optimoinnit, mukaan lukien projektio, ja edistää alhaista
  • Kääntäjä: Samoin kääntäjä kääntää parannetun loogisen suunnitelman MapReduce-teosten ryhmässä.
  • Suoritusmoottori: Loppujen lopuksi kaikki MapReduce-teokset postitetaan Hadoopille lajitellussa järjestyksessä. Lopulta tämä tuottaa vaaditut tulokset, vaikka nämä MapReduce-työt suoritetaan Hadoopin kanssa.
  • MapReduce: MapReduce suunniteltiin alun perin Googlessa tapaa käsitellä verkkosivuja Google-haun tehostamiseksi. MapReduce jakelee laskennan useille klusterin koneille. MapReduce hyödyntää tietojenkäsittelyn luontaista samansuuntaisuutta. Nykyaikaiset järjestelmät, kuten anturit, tai jopa Facebook-tilapäivitykset tuottavat miljoonia tietueita raakatietoja.

Tämän tason aktiviteetti voidaan valmistaa kahdessa vaiheessa:

  1. Kartta
  2. Vähentää

Päätät, minkä logiikan haluat toteuttaa näissä vaiheissa tietojen käsittelemiseksi.

  • HDFS (Hadoop Distributed File System): Hadoop sallii tietojen tallennuksen ja analysoinnin räjähdyksen mittakaavassa rajoittamattomassa kapasiteetissa. Kehittäjät käyttävät sovelluksia, kuten Pig, Hive, HBase ja Spark, tietojen hakemiseen HDFS: stä.

ominaisuudet

Apache Pig sisältää seuraavat ominaisuudet:

  • Ohjelmoinnin yksinkertaisuus: Pig Latin on verrattavissa SQL: ään, ja siksi kehittäjien on melko helppoa luoda Pig-skripti. Jos sinulla on ymmärrys SQL-kielestä, sika-latinan kielen oppiminen on uskomattoman helppoa, koska se on aivan kuten SQL-kieli.
  • Rikas joukko operaattoreita: Sika sisältää monenlaisia ​​rikkaita operaattoreita, jotta ne voivat suorittaa menettelyjä kuten liittyminen, arkistointi, lajittelu ja paljon muuta.
  • Optimointimahdollisuudet: Suorituskykyä Apache Pigin tehtävän kanssa voidaan parantaa heti itse; siksi kehittäjien on keskityttävä vain tämän kielen semantiikkaan.
  • Laajennettavuus: Hyödyntämällä esteettömiä operaattoreita, käyttäjät voivat yksinkertaisesti kehittää toimintojaan tietojen lukemiseen, käsittelemiseen ja kirjoittamiseen.
  • Käyttäjän määrittelemät toiminnot (UDF: t): Käyttämällä Pigin tarjoamia palveluita UDF: n valmistuksessa, voisimme tuottaa käyttäjän määrittelemiä toimintoja useilla kehityskielillä, mukaan lukien Java, sekä kutsua tai upottaa ne kaikki Pig Scripts -ohjelmiin.

Mihin sika on hyödyllinen?

Sitä käytetään tutkimaan ja suorittamaan vastuita, mukaan lukien tilapäinen käsittely. Apache Pig -laitetta voidaan käyttää:
Analyysi valtavien raakatietokokoelmien kanssa suosii tietojenkäsittelyä hakemaan verkkosivustoja. Kuten Yahoo, Google hyödyttää Apache Pigia arvioimaan Googlen ja Yahoo-hakukoneiden kautta kerättyjä tietoja. Käsittelee suuria tietokokoelmia kuten verkkotietueita, suoratoistaa online-tietoja ja niin edelleen. Jopa Facebookin tilapäivitykset tuottavat miljoonia tietueita raa'asta tiedosta.

Kuinka tämä tekniikka auttaa sinua kasvamaan uralla?

Monet organisaatiot toteuttavat Apache Pig -sovelluksen uskomattoman nopeasti. Tämä tarkoittaa sitä, että sika- ja sikauran ammatit kasvavat päivittäin. Apache Hadoopin kehittämisessä on tapahtunut valtavaa edistystä parin viime vuoden aikana. Hadoop-elementit, kuten Hive, Pig, HDFS, HBase, MapReduce ja niin edelleen.

Vaikka Hadoop-tarjoukset tulivat toiseen vuosikymmeneen tällä hetkellä, se on kuitenkin räjähtänyt tunnustuksena edeltävien kolmen tai neljän vuoden aikana. Suuri joukko ohjelmistoyrityksiä soveltaa Hadoop-klustereita uskomattoman yleisesti. Tämä voi olla ehdottomasti paras osa suurista tiedoista. Tavoittelevista asiantuntijoista voi tulla kokeneita tässä erinomaisessa tekniikassa.

johtopäätös

Apache Pig -asiantuntemus on markkinoilla erittäin vaativa, ja sitä voidaan jatkaa. Yksinkertaisesti ymmärtämällä käsitteet sekä hankkimalla kokemuksen parhaista Apache Pig -sovelluksista Hadoop-taitoilla, asiantuntijat voivat harjoittaa Apache Pig-ammattiaan täydellisesti.

Suositeltava artikkeli

Tämä on opas kohtaan Mikä on sika? Tässä keskustelimme käsitteistä, määritelmistä ja arkkitehtuurista Pigin ominaisuuksien kanssa. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -

  1. Kuinka asentaa Apache
  2. Apache PIG -haastattelukysymykset
  3. Mikä on ASP.Net Web Services?
  4. Mikä on Blockchain-tekniikka?