Johdanto AWS Data Pipeline -sovellukseen

Tiedot kasvavat räjähdysmäisesti päivä päivältä, ja niistä on vaikea hallita aiempaan verrattuna. Tarvitsemme työkaluja ja palveluita tietojen tehokkaaseen ja halvempaan hallintaan. Siellä AWS Data Pipeline tulee mieleen. Kyse ei ole vain tietojen tallentamisesta, vaan sinun on analysoitava, käsiteltävä ja muunnettava tiedot haluttuun muotoon samassa paikassa. Tämä kaikki voidaan saavuttaa AWS Data Pipeline -sovelluksella.

Data Pipeline -tarve

Yritetään ymmärtää dataputken tarve esimerkillä:

Esimerkki # 1

Meillä on verkkosivusto, joka näyttää kuvia ja gifiä käyttäjän hakujen tai suodattimien perusteella. Pääpainomme on sisällön tarjoamisessa. Saavuttaa tiettyjä tavoitteita, jotka ovat seuraavat: -

  • Sisällön jakelun parantaminen: Palvelun tarjoaminen käyttäjälle haluaa tehokkaasti ja riittävän nopeasti.
  • Hallinnoi sovellusta tehokkaasti: Käyttäjätietojen ja verkkosivustojen lokien tallentaminen myöhempää analyyttistä tarkoitusta varten.
  • Paranna liiketoimintaa: Tallennettujen tietojen ja analysoinnin avulla päätetään tehdä liiketoimintaa parempana halvemmalla.

Esimerkki 2

Tavoitteiden saavuttamiseksi on olemassa tiettyjä pullonkauloja:

  • Valtava määrä tietoa eri muodoissa ja eri paikoissa, mikä tekee tietojen käsittelystä, tallentamisesta ja siirtämisestä monimutkaisen tehtävän.

Eri tietotyyppien erilaiset tallennuskomponentit:

  • Mahdolliset reaaliaikaiset tiedot rekisteröityneille käyttäjille: Dynamo DB .
  • Web-palvelimen lokit mahdollisille käyttäjille: Amazon S3 .
  • Kohderyhmätiedot ja kirjautumistiedot: Amazon RDS.
  • Anturitiedot ja kolmannen osapuolen tiedot: Amazon S3.

ratkaisut

  • Mahdollinen ratkaisu: Voimme nähdä, että meidän on käsiteltävä erityyppisiä työkaluja tietojen muuntamiseksi rakenteettomasta rakenteelliseksi analysoitavaksi. Täällä meidän on käytettävä erilaisia ​​työkaluja tietojen tallennukseen ja uudelleen muuntaa, analysoida ja tallentaa käsiteltyä tietoa. Ei kustannustehokas ratkaisu.
  • Optimaalinen ratkaisu: Käytä dataputkea, joka käsittelee käsittelyä, visualisointia ja siirtymistä. Dataputki voi olla hyödyllinen siirrettäessä tietoja eri paikoista, myös analysoimalla tietoja ja käsittelemällä niitä samassa paikassa puolestasi.

Mikä on AWS Data Pipeline?

AWS Data Pipeline on periaatteessa Amazonin tarjoama verkkopalvelu, joka auttaa muuntamaan, käsittelemään ja analysoimaan tietojasi skaalautuvalla ja luotettavalla tavalla sekä tallentamaan prosessoituja tietoja S3: een, DynamoDb: hen tai paikalliseen tietokantaan.

  • AWS Data Pipeline -sovelluksella voit helposti käyttää tietoja eri lähteistä.
  • Muunna ja käsittele kyseinen tieto mittakaavassa.
  • Siirrä tulokset tehokkaasti muihin palveluihin, kuten S3, DynamoDb-taulukko tai paikallinen tietovarasto.

Peruskäyttöesimerkki dataputkesta

  • Voisimme olla EC2: n käyttöön otettu verkkosivusto, joka tuottaa lokit päivittäin.
  • Yksinkertainen päivittäinen tehtävä voitaisiin kopioida lokitiedostot E2: lta ja saavuttaa ne S3-ämpäriin.
  • Viikkotehtävänä voisi olla tietojen käsittely ja tietojen analysoinnin käynnistäminen Amazon EMR: n kautta, jotta viikkotiedot saadaan kaiken kerätyn tiedon perusteella.

Tietoanalyysin käynnistäminen AWS Data Pipeline -sovelluksella

  • Tietojen kerääminen eri tietolähteistä, kuten S3, Dynamodb, paikan päällä, anturitiedot jne.
  • Suoritetaan muuntaminen, käsittely ja analysointi AWS EMR: ssä viikoittaisten raporttien tuottamiseksi.
  • Viikkoraportti tallennetaan Redshift, S3 tai paikkatietokantaan.

AWS Data Pipeline -sovelluksen edut

Pisteiden alapuolella selitetään AWS Data Pipelinen edut:

  • Vedä ja pudota -konsoli, joka on helppo ymmärtää ja käyttää.
  • Hajautettu ja luotettava infrastruktuuri: Tietoputket kulkevat skaalautuvilla palveluilla ja ovat luotettavia, jos jokin virhe tai tehtävä epäonnistuu, sen voidaan asettaa yrittämään uudelleen.
  • Tukee ajoittamista ja virheiden seurantaa: Voit ajoittaa tehtävät ja seurata niitä, jotka joutuivat epäonnistumaan ja menestystä.
  • Hajautettu: Voidaan käyttää rinnakkain useissa koneissa tai lineaarisesti.
  • Täysi hallinta laskennallisista resursseista, kuten EC2, EMR-klusterit.

AWS Data Pipeline -komponentit

Alla on AWS Data Pipeline -komponentit:

1. Putkilinjan määritelmä

Muunna yrityksesi logiikka AWS Data Pipelineksi.

  • Tietosolmut : Sisältää sen tietolähteen nimen, sijainnin, muodon, joka se voi olla (S3, dynaaminen tiedosto, paikalla)
  • Toiminnot : Siirrä, muunna tai suorita kyselyjä tietoihin.
  • Aikataulu : Aikataulu päivittäistä tai viikoittaista toimintaa.
  • Edellytys : Edellytykset käynnistää aikataulu tarkistaa tietojen saatavuuden lähteellä.
  • Resurssit : Laske resurssit EC2, EMR.
  • Toimet : Päivitys Data Pipeline -sovelluksesta, ilmoitusten lähettäminen, laukaisuhälytys.

2. Putkilinjat

Täällä voit ajoittaa ja suorittaa tehtävät suorittamaan määritetyt toiminnot.

  • Putkilinjan C komponentit : Putkilinjan komponentit ovat samat kuin Putkilinjan määritelmä.
  • Tapahtumat: AWS kokoaa tehtävien suorittamisen aikana kaikki komponentit tiettyjen toimittavien esiintymien luomiseksi. Tällaisissa tapauksissa on kaikki tiedot tietyistä tehtävistä.
  • Yritykset: Olemme jo keskustelleet siitä, kuinka luotettava Data Pipeline on sen uudelleenyritysmekanismeilla. Tässä voit asettaa kuinka monta kertaa haluat yrittää uudestaan ​​tehtävää, jos se epäonnistuu.

3. Task Runner

Kysyy tai kysyy AWS Data Pipeline -yrityksen tehtäviä ja suorittaa sitten nämä tehtävät.

AWS Data Pipeline -hinnoittelu

Pisteiden alapuolella selitetään AWS Data -putkilinjan hinnoittelu:

1. Vapaa taso

Voit aloittaa AWS Data Pipeline -sovelluksen käytön ilmaiseksi osana AWS: n ilmaista käyttötasoa. Uudet ilmoittautuneet asiakkaat saavat joka kuukausi ilmaisia ​​etuja yhdeksi vuodeksi:

  • 3 Edellytykset matalaan taajuuteen AWS: llä ajamatta.
  • 5 Matalataajuuksiset AWS-toiminnot ilman maksua.

2. Matala taajuus

Matalataajuuden tarkoitetaan juoksevan kerran päivässä tai vähemmän. Data Pipeline noudattaa samaa laskutusstrategiaa kuin muut AWS-verkkopalvelut, ts. Laskutetaan käytöstäsi. Laskutetaan kuinka usein tehtävät, aktiviteetit ja edellytykset suoritetaan päivittäin ja missä ne suoritetaan (AWS tai paikalla). Suurtaajuustoimintojen on tarkoitus tapahtua useammin kuin kerran päivässä.

Esimerkki: Voimme ajoittaa toiminnan suorittamaan joka tunti ja käsittelemään verkkosivustojen lokit tai se voi olla 12 tunnin välein. Matalataajuuksisia aktiviteetteja pidetään kerran päivässä tai vähemmän, jos ennakkoedellytyksiä ei täytetä. Ei-aktiivisissa putkilinjoissa on joko offline-, PENDING- ja FINISHED-tilat.

3. AWS Data Pipeline -sovelluksen hinnoittelu näkyy alueellisesti

Alue # 1: Yhdysvaltojen itäosa (N.Virginia), Yhdysvaltojen länsiosa (Oregon), Aasian ja Tyynenmeren alue (Sydney), EU (Irlanti)

KorkeataajuusMatala taajuus
Toiminnot tai ennakkoedellytykset AWS: n yli 1, 00 dollaria kuukaudessa 0, 06 dollaria kuukaudessa
Toiminta tai ennakkoedellytykset paikan päällä 2, 50 dollaria kuukaudessa 1, 50 dollaria kuukaudessa
Passiiviset putkistot: 1, 00 dollaria kuukaudessa

Alue # 2: Aasia ja Tyynenmeren alue (Tokio)

KorkeataajuusMatala taajuus
Toiminnot tai ennakkoedellytykset AWS: n yli 0, 9524 dollaria kuukaudessa 0.5715 dollaria kuukaudessa
Toiminta tai ennakkoedellytykset paikan päällä 2, 338 dollaria kuukaudessa 1, 4286 dollaria kuukaudessa
Passiiviset putkistot: 0, 9524 dollaria kuukaudessa

Putkilinja, jonka päivittäinen työ eli AWS: n matalataajuinen toiminta datan siirtämiseksi DynamoDB-taulukosta Amazon S3: lle, maksaa 0, 60 dollaria kuukaudessa. Jos lisäämme EC2: n tuottamaan raportin, joka perustuu Amazon S3: n tietoihin, putkilinjan kokonaiskustannukset olisivat 1, 20 dollaria kuukaudessa. Jos suoritamme tätä toimintaa joka 6. tunti, se maksaa 2, 00 dollaria kuukaudessa, koska silloin se olisi korkeataajuinen toiminta.

johtopäätös

AWS Data Pipeline on erittäin kätevä ratkaisu eksponentiaalisesti kasvavan datan hallintaan halvemmalla. Se on erittäin luotettava ja skaalautuva käytön mukaan. AWS Data Pipeline on erittäin hyvä valinta kaikkien liiketoimintatavoitteidemme saavuttamiseen kaikissa liiketoiminnan tarpeissa, joissa se käsittelee suurta määrää tietoa.

Suositellut artikkelit

Tämä on opas AWS Data Pipeline -sovellukseen. Tässä keskustellaan dataputken tarpeista, mikä on AWS-dataputki, sen komponentti ja hinnoittelun yksityiskohdat. Voit myös käydä läpi muiden aiheeseen liittyvien artikkeleidemme saadaksesi lisätietoja -

  1. AWS EBS
  2. AWS-tietokannat
  3. Mikä on AWS EC2?
  4. Tietojen visualisoinnin edut
  5. 7 paras AWS-kilpailija ominaisuuksineen
  6. Opi luettelo Amazon Web Services -ominaisuuksista

Luokka: