Apache Flume - Arkkitehtuuri - Apache Flume -sovelluksen toiminta ja edut

Johdatus Apache Flumeen

Apache Flume on Data Ingestion Framework, joka kirjoittaa tapahtumapohjaisen tiedon Hadoopin hajautettuun tiedostojärjestelmään. On tunnettu tosiasia, että Hadoop käsittelee suuria tietoja, herää kysymys, kuinka eri web-palvelimilta tuotettu tieto siirretään Hadoop-tiedostojärjestelmään? Vastaus on Apache Flume. Flume on suunniteltu tapahtumapohjaisen datan suuren määrän tietojen syöttämistä Hadoopille.

Mieti tilannetta, jossa verkkopalvelimien määrä luo lokitiedostoja ja näiden lokitiedostojen on lähetettävä Hadoop-tiedostojärjestelmään. Flume kerää nämä tiedostot tapahtumina ja vie ne Hadoopiin. Vaikka Flumea käytetään siirtämiseen Hadoopille, ei ole tiukkaa sääntöä, jonka mukaan määränpään on oltava Hadoop. Flume pystyy kirjoittamaan muille kehyksille, kuten Hbase tai Solr.

Flume-arkkitehtuuri

Apache Flume -arkkitehtuuri koostuu yleensä seuraavista komponenteista:

Flume Source
Flume-kanava
Flume-pesuallas
Flume Agent
Flume-tapahtuma

Katsokaamme lyhyesti kutakin Flume-komponenttia

1. Flume Source

Flume-lähde on läsnä tietolähteissä, kuten Face-kirja tai Twitter. Lähde kerää tietoja generaattorilta ja siirtää ne Flume Channel -kanavalle Flume-tapahtumien muodossa. Flume tukee erityyppisiä lähteitä, kuten Avro Flume Source - yhdistää Avro-porttiin ja vastaanottaa tapahtumia Avron ulkoiselta asiakkaalta, Thrift Flume Source - yhdistää Thrift-porttiin ja vastaanottaa tapahtumia ulkoisista Thrift-asiakasvirroista, Spooling Directory Source -lähteestä ja Kafka Flume Source -sivustosta.

2. Flume Channel

Välikauppaa, joka puskuroi Flume Source -lähetyksen tapahtumia, kunnes Sink kuluttaa ne, kutsutaan Flume Channeliksi. Kanava toimii välitietona Lähteen ja Sinkin välillä. Flume-kanavat ovat luonteeltaan transaktionaalisia.

Flume tukee tiedosto- ja muistikanavia. Tiedostokanava on luonteeltaan kestävä, mikä tarkoittaa, että kun data on kirjoitettu kanavalle, sitä ei menetetä, vaikka agentti käynnistyy uudelleen. Muistissa kanavatapahtumat tallennetaan muistiin, joten se ei ole kestävä, mutta luonteeltaan erittäin nopea.

3. Flume-pesuallas

Flume-pesuallas on läsnä tietovarastoissa, kuten HDFS, HBase. Flume-pesuallas kuluttaa tapahtumia kanavalta ja tallentaa ne kohdekauppaan kuten HDFS. Ei ole olemassa sellaista sääntöä, että pesualtaan pitäisi toimittaa tapahtumia Kauppaan, sen sijaan voimme konfiguroida sen siten, että pesuallas voi toimittaa tapahtumia toiselle edustajalle. Flume tukee erilaisia nieluja, kuten HDFS-pesuallas, pesän pesuallas, säästävä pesuallas, Avro-pesuallas.

Kuva 1.1 Flume-perusarkkitehtuuri

4. Flume Agent

Flume-agentti on pitkäaikainen Java-prosessi, joka toimii Source - Channel - Sink -yhdistelmässä. Flumassa voi olla useampi kuin yksi agentti. Voimme pitää Flumea yhdistelmänä Flume-agentteja, jotka ovat jakautuneet luonnossa.

5. Flume-tapahtuma

Tapahtuma on Flume-yksikössä siirretty tietoyksikkö . Dataobjektin yleistä esitystä Flumessa kutsutaan tapahtumaksi. Tapahtuma koostuu tavuyksikön hyötykuormasta valinnaisilla otsikoilla.

Flumin toiminta

Flume-agentti on java-prosessi, joka koostuu Source - Channel - Sinkistä sen yksinkertaisimmassa muodossa. Lähde kerää tietoja tiedonkeruulaitteelta tapahtumien muodossa ja toimittaa sen kanavalle. Lähde voi toimittaa useille kanaville vaatimuksen mukaan. Tuuletin on prosessi, jossa yksi lähde kirjoittaa useille kanaville, jotta ne voivat toimittaa useille nieluille.

Tapahtuma on Flumessa lähetettävän tiedon perusyksikkö. Kanava puskuroi tietoja, kunnes Sink on ne syönyt. Sink kerää tiedot kanavalta ja toimittaa ne keskitettyyn tallennustilaan, kuten HDFS tai Sink voi välittää kyseiset tapahtumat toiselle Flume-agentille vaatimuksen mukaisesti.

Flume tukee tapahtumia. Luotettavuuden saavuttamiseksi Flume käyttää erillisiä transaktioita lähteestä kanavalle ja kanavasta uppoon. Jos tapahtumia ei toimiteta, tapahtuma kumotaan ja toimitetaan myöhemmin uudelleen.

Ymmärtääksemme Flume-toimintoa, ottakaamme esimerkki Flume-kokoonpanosta, jossa lähde on spooling-hakemisto ja upotus on Hdfs. Tässä esimerkissä Flume-agentti on yksinkertaisimmassa muodossa, ts. Yhden lähteen, kanavan ja pesimen topologia, joka on määritetty Java-ominaisuustiedoston avulla.

agent1.sources = source1 agent1.sinks = sink1 agent1.channels = channel1 agent1.sources.source1.channels = channel1 agent1.sinks.sink1.channel = channel1 agent1.sources.source1.type = spooldir agent1.sources.source1.spoolDir = /tmp/spooldir agent1.sinks.sink1.type = hdfs agent1.sinks.sink1.hdfs.path = /tmp/flume agent1.channels.channel1.type = file

Yllä olevassa kokoonpanoesimerkissä agentti on emäs, jolla määrittelemme muut ominaisuudet. Lähde1 ja nielu1 ja kanava1 ovat lähteen, nieluksen ja kanavan nimet, ja niiden tyypit ja sijainnit mainitaan vastaavasti.

Apache Flume -sovelluksen edut

Flume on luonteeltaan skaalautuva, luotettava ja vikasietoinen. Näitä ominaisuuksia käsitellään yksityiskohtaisesti alla
Skaalautuva - Flume on skaalautuva vaakatasossa, ts. Voimme lisätä uusia solmuja vaatimuksemme mukaan
Luotettava - Apache Flume tukee tapahtumia ja varmistaa, että tietoja ei menetetä tiedonsiirtoprosessissa. Sillä on erilaisia tapahtumia lähteestä kanavaan ja kanavasta lähteeseen.
Flume on muokattavissa ja tarjoaa tukea eri lähteille ja nieluille, kuten Kafka, Avro, kelaushakemisto, säästäväisyys jne.
Flume-yksikössä yksi lähde voi lähettää dataa useille kanaville ja nuo kanavat vuorostaan lähettävät datan useille nieluille, joten yksi lähde voi lähettää dataa useille nieluille. Tämän mekanismin nimi on Fan out. Flume tukee myös Fan out -toimintoa.
Flume tarjoaa tasaisen tiedonsiirron, ts. Jos datan lukemisen nopeus kasvaa ja sitten myös datan kirjoitusnopeus kasvaa.
Vaikka Flume yleensä kirjoittaa tietoja keskitettyyn tallennustilaan, kuten HDFS tai Hbase, voimme määrittää Flume vaatimuksemme mukaan siten, että Sink voi kirjoittaa tietoja toiselle edustajalle. Tämä osoittaa Flumen joustavuuden
Apache Flume on avoimen lähdekoodin luonne.

johtopäätös

Tässä Flume-artikkelissa käsitellään yksityiskohtaisesti Flume-komponentteja ja Flumen toimintaa. Flume on joustava, luotettava ja skaalautuva alusta tiedonsiirtoon keskitettyyn kauppaan, kuten HDFS. Sen kyky integroitua erilaisiin sovelluksiin, kuten Kafka, Hdfs, Thrift, tekee siitä käyttökelpoisen vaihtoehdon tietojen syöttämiselle.

Suositellut artikkelit

Tämä on opas Apache Flumeen. Tässä keskustellaan Apache Flume -sovelluksen arkkitehtuurista, toiminnasta ja eduista. Saatat myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

Mikä on Apache Flink?
Ero Apache Kafka ja Flume välillä
Big Data -arkkitehtuuri
Hadoop-työkalut
Opi erilaisia JavaScript-tapahtumia

Apache Flume - Arkkitehtuuri - Apache Flume -sovelluksen toiminta ja edut

Sisällysluettelo:

Johdatus Apache Flumeen

Flume-arkkitehtuuri

1. Flume Source

2. Flume Channel

3. Flume-pesuallas

4. Flume Agent

5. Flume-tapahtuma

Flumin toiminta

Apache Flume -sovelluksen edut

johtopäätös

Suositellut artikkelit

Macaon pankit - Yleiskatsaus ja opas kymmenen parhaan Macaon pankin joukkoon

Pankit Omanissa Opas ja yleiskuvaus Oman 10 suosituimpaan pankkiin

Pankit Norjassa Yleiskatsaus ja opas kymmenen parhaan Norjan pankin joukkoon

Pankit Puerto Ricossa Yleiskatsaus ja opas kymmenen suurimpaan Puerto Rico -pankkiin

Filippiinien pankit - Opas Top 10 pankkiin Filippiineillä

Excel VBA ReDim - Kuinka käyttää VBA ReDim -suojainta?

VBA Tallenna nimellä - Kuinka tallentaa tiedostoa käyttämällä Excel VBA Tallenna nimellä -toimintoa?

VBA Oikea - Vaihe vaiheelta opas VBA-oikean toiminnan käyttämiseen Excelissä?

VBA-sarja - Kuinka käyttää Excel VBA Range Object -sovellusta?

VBA Nimeä uudelleen - Kuinka nimetä arkki Excelissä uudelleen VBA: n avulla?

Scrum-prosessi - Opi erilainen prosessi ja Scrum-mallin avainrooli

Vierityspalkki Excelissä - Kuinka lisätä vierityspalkki Exceliin ja kuinka sitä käytetään?

Scrum-periaatteet - Opi Scrum Agile -tuotteen tärkeät periaatteet ja arvot

Sankey-taulukko Tableau - Kuinka liittää sankey-taulukko taulukossa?

Scrum Roolit - Scrumin 3 parasta roolia ja heidän työvastuunsa