ETL-prosessin esittely

ETL on yksi tärkeistä prosesseista, joita Business Intelligence vaatii. Business Intelligence perustuu tietovarastoihin tallennettuihin tietoihin, joista tuotetaan monia analyysejä ja raportteja, mikä auttaa rakentamaan tehokkaampia strategioita ja johtaa taktisiin, operatiivisiin oivalluksiin ja päätöksentekoon.

ETL tarkoittaa purkamis-, muuntamis- ja latausprosessia. Se on eräänlainen tietojen integrointivaihe, jossa eri lähteistä peräisin olevat tiedot puretaan ja lähetetään tietovarastoihin. Tiedot poimitaan eri lähteistä ensin muunnetaan muuntamaan ne tiettyyn muotoon liiketoiminnan tarpeiden mukaan. Eri työkaluja, jotka auttavat suorittamaan näitä tehtäviä, ovat -

  • IBM DataStage
  • AB initio
  • Informatica
  • Kuvaelma
  • Talend

ETL-prosessi

Kuinka se toimii?

ETL-prosessi on 3-vaiheinen prosessi, joka alkaa datan poiminnasta eri tietolähteistä ja sitten raakatiedot käydään läpi erilaisia ​​muunnoksia, jotta siitä tulisi sopiva varastoitavaksi tietovarastoon ja ladataan se tietovarastoihin vaaditussa muodossa ja tehdään valmiiksi analyysi.

Vaihe 1: Pura

Tämä vaihe viittaa vaadittavien tietojen hakemiseen eri lähteistä, jotka ovat läsnä eri muodoissa, kuten XML, Hadoop-tiedostot, Flat Files, JSON jne. Poimitut tiedot tallennetaan latausalueelle, jolla suoritetaan lisämuutoksia. Siksi tiedot tarkistetaan huolellisesti ennen siirtämistä tietovarastoihin. Muuten tulee haasteksi tietovarastoissa tapahtuvien muutosten palauttaminen.

Lähteen ja kohteen välillä tarvitaan asianmukainen tietokartta, ennen kuin tietojen poiminta tapahtuu, koska ETL-prosessin on oltava vuorovaikutuksessa erilaisten järjestelmien, kuten Oracle, Hardware, Mainframe, reaaliaikaisten järjestelmien, kuten ATM, Hadoop, jne. Kanssa, kun noudetaan tietoja näistä järjestelmistä. .

Huomaa - Mutta on huolehdittava siitä, että nämä järjestelmät eivät pidä muuttuvan uutettaessa.

Tiedonkeruun strategiat
  • Täysi purkaminen: Tätä seurataan, kun lähteistä kokonaiset tiedot ladataan tietovarastoihin, jotka osoittavat, että joko tietovarasto täytetään ensimmäistä kertaa tai tiedon uuttamista varten ei ole tehty strategiaa.
  • Osittainen purku (päivitysilmoituksella): Tämä strategia tunnetaan myös nimellä delta, jossa vain muutettavat tiedot puretaan ja päivitetään tietovarastoja
  • Osittainen purkaminen (ilman päivitysilmoitusta): Tämä strategia viittaa tiettyjen vaadittujen tietojen purkamiseen lähteistä tietovarastojen kuormituksen mukaan kokonaisten tietojen poiminnan sijasta.

Vaihe 2: Muunna

Tämä vaihe on ETL: n tärkein vaihe. Tässä vaiheessa suoritetaan monia muunnoksia, jotta data saadaan valmiiksi ladattavaksi tietovarastoihin soveltamalla alla olevia muunnoksia: -

A. Perusmuunnokset: Näitä muuntamisia sovelletaan jokaisessa skenaariossa, koska ne ovat perustarpeita, kun ladataan eri lähteistä poimittua tietoa tietovarastoihin

  • Tietojen puhdistus tai rikastaminen: Se tarkoittaa ei-toivottujen tietojen puhdistamista vaiheistusalueelta, jotta väärät tiedot eivät latautuisi tietovarastoista.
  • Suodatus: Tässä suodatamme vaaditut tiedot suuresta määrästä tietoa liiketoiminnan vaatimusten mukaisesti. Esimerkiksi myyntiraporttien laatimiseen tarvitaan vain kyseisen vuoden myyntitietueet.
  • Yhdistäminen: Poimitut tiedot yhdistetään vaaditussa muodossa ennen niiden lataamista tietovarastoihin.4.
  • Standardisointi: Tietokentät muutetaan niin, että ne saadaan samaan vaadittuun muotoon esimerkiksi tietokentän on oltava määritetty muodossa KK / PP / VVVV.

B. Pitkälle edenneet muutokset: Tämäntyyppiset muutokset ovat ominaisia ​​liiketoiminnan vaatimuksille.

  • Liittyminen: Tässä toiminnassa kahden tai useamman lähteen tiedot yhdistetään. T luodaan tietoja vain halutuilla sarakkeilla, joiden rivit liittyvät toisiinsa
  • Tietorajan validointitarkistus: Eri kentissä olevat arvot tarkistetaan, ovatko ne oikeita vai eivät, esimerkiksi, jos pankkitietojen tapauksessa ei ole nolla pankkitilin numero.
  • Käytä hakuja tietojen yhdistämiseen: Erilaisia ​​litteitä tiedostoja tai muita tiedostoja käytetään tietyn tiedon purkamiseen suorittamalla siitä hakuoperaatio.
  • Minkä tahansa monimutkaisen tietojen validoinnin käyttäminen: Monia monimutkaisia ​​validointeja käytetään kelpoamaan kelpaavaa tietoa vain lähdejärjestelmistä.
  • Lasketut ja johdetut arvot: Erilaisia ​​laskelmia käytetään tietojen muuntamiseksi tarvittaviksi tiedoiksi
  • Kopiointi: Lähdejärjestelmistä tulevat päällekkäiset tiedot analysoidaan ja poistetaan ennen niiden lataamista tietovarastoihin.
  • Avaimen uudelleenjärjestely: Jos kaappaa hitaasti muuttuvaa tietoa, on luotava erilaisia ​​korvaavia avaimia tietojen rakentamiseksi tarvittavaan muotoon.

Huomaa - MPP-massiivista rinnakkaisprosessointia käytetään toisinaan joidenkin perustoimintojen suorittamiseen, kuten suodattamiseen tai tietojen puhdistamiseen vaiheistusalueella suuren tietomäärän käsittelemiseksi nopeammin.

Vaihe 3: Lataa

Tämä vaihe viittaa muunnetun tiedon lataamiseen tietovarastoon, josta sitä voidaan käyttää tuottamaan monia analyysipäätöksiä sekä raportoimaan.

1. Alkulataus: Tämäntyyppinen lataus tapahtuu, kun tietoja ladataan tietovarastoihin ensimmäistä kertaa.

2. Inkrementaalikuormitus: Tämä on lataustyyppi, joka päivitetään tietovarastoon säännöllisin väliajoin lähdejärjestelmätiedoissa tapahtuvien muutosten avulla.

3. Täysi päivitys: Tämäntyyppinen lataus viittaa tilanteeseen, kun taulukon täydelliset tiedot poistetaan ja ladataan tuoreilla tiedoilla.

Tietovarasto sallii sitten OLAP- tai OLTP-ominaisuudet.

ETL-prosessin haitat

  1. Tietojen lisääminen - ETL-työkalun avulla erilaisista lähteistä kerättävää tietoa voidaan siirtää tietovarastoihin. Siten datan lisääntyessä ETL-työkalun ja tietovarastojen kanssa työskentely tulee vaivalloista.
  2. Mukauttaminen - Tämä tarkoittaa nopeita ja tehokkaita ratkaisuja tai vastauksia lähdejärjestelmien tuottamaan tietoon. Mutta ETL-työkalun käyttö hidastaa tätä prosessia.
  3. Kalliita - Tietovaraston käyttäminen kasvavan tietyn ajanjakson aikana tuotettavan tietomäärän tallentamiseksi on korkea kustannus, jonka organisaation on maksettava.

Johtopäätös - ETL-prosessi

ETL-työkalu käsittää poiminta-, muuntamis- ja latausprosessit, joissa se auttaa tuottamaan tietoa eri lähteistä kerätyistä tiedoista. Lähdejärjestelmän tiedot voivat olla missä tahansa muodossa ja ne voidaan ladata missä tahansa halutussa muodossa tietovarastoissa, joten ETL-työkalun on tuettava yhteydet kaikentyyppisiin näihin muotoihin.

Suositellut artikkelit

Tämä on opas ETL-prosessiin. Tässä keskustellaan johdannosta, Kuinka se toimii ?, ETL Tools ja sen haitat. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -

  1. Informatica ETL-työkalut
  2. ETL-testaustyökalut
  3. Mikä on ETL?
  4. Mikä on ETL-testaus?

Luokka: