Erot tietovaraston ja Hadoopin välillä

Jokaisessa vuosikymmenessä IT-teollisuus kokee merkittävän innovaation, joka ravistaa koko IT-alaa. Viime vuosina Apache Hadoop on tehnyt saman asian infusoimalla tietokeskuksia uudella infrastruktuurilla

Antamalla rinnakkaiskäsittelyn voima ohjelmoijalle Hadoop on sellaisenaan eksponentiaalisessa nousussa ja sen ekosysteemi laajenee sekä syvyydessä että leveydessä, on luonnollista kysyä, aikooko Hadoop korvata perinteisen tietovaraston.

Katsotaanpa mitä Alasdair Anderson (Nordean varatoimitusjohtaja) sanoi Hadoop-huippukokouksessa tästä kuumasta aiheesta kaupungissa.

”EDW: n ja Hadoopin välillä ei ole tällä hetkellä mitään suhdetta - ne tulevat olemaan toisiaan täydentäviä. Kyse ei ole kopioinnista ja korvaa: emme aio päästä eroon RDBMS: stä tai MPP: stä, vaan käytämme sen sijaan oikeaa työkalua oikeaan työhön - ja hinta vaikuttaa siihen suuresti.

Aina kun tämä mielenkiintoinen keskustelu alkaa, mieleemme tulee paljon kysymyksiä, kuten:

1) Jos sinulla on suuria tietoja, tarvitsetko tietovarasto?

2) Korvaako Hadoop tietovaraston?

3) Onko tämä perinteisen Data Warehouse -kauden kuolema?

Jotta tiedämme vastaukset kaikkiin näihin kysymyksiin, meidän on tutkittava tämän kuvan laajempaa kontekstia.

1. Mikä on Hadoop?

Kuka ei ole kuullut Big Datasta viime aikoina? Koska satoja teratavuja tietoja luodaan päivittäin eri lähteistä, on selvää, että nykypäivän moderni maailma on iso datamaailma

Kun aloitat puhua Big Data -palvelusta, keskustelet ennemmin tai myöhemmin Big Data -maailman kuumin aihe: Hadoop - mutta mikä se oikeastaan ​​on?

Hadoop on avoimen lähdekoodin Java-pohjainen ohjelmointikehys, joka tukee erittäin suurten tietojoukkojen käsittelyä ja tallentamista hajautetussa laskentaympäristössä.

Hadoopin 4 moduulia -

Hadoop koostuu 4 moduulista -

  1. Hajautettu tiedostojärjestelmä

Hajautettu tiedostojärjestelmä mahdollistaa tietojen tallentamisen helposti saatavilla olevassa muodossa monien linkitettyjen tallennuslaitteiden yli.

  1. Kartta pienennä

Map Reduce on kahden operaation yhdistelmä - datan lukeminen tietokannasta ja asettaminen analyysiin sopivaan muotoon (kartta) ja matemaattisten toimintojen suorittaminen (pienennys).

  1. Hadoop Yhteinen

Hadoop Common tarjoaa työkalut, joita tarvitaan HDFS: ään (Hadoop Distributed File System) tallennettuihin tietoihin.

  1. LANKA

YARN hallitsee järjestelmien resursseja, jotka tallentavat tietoja ja suorittavat analyysin.

2. Mikä on tietovarasto?

Tietovarasto on relaatiotietokanta, joka on suunniteltu kysely- ja analyysitietoihin. Se sisältää yleensä eri lähteistä peräisin olevia historiallisia tietoja.

Tietovarastoympäristö sisältää ETL-ratkaisut, online-analyyttisen käsittelyn (OLAP) moottorin, asiakasanalyysityökalut ja muut sovellukset, jotka hallitsevat tietojen analysointiprosessia ja toimittamista yrityksille.

Tehdään yhteenveto mitä tietovarasto on -

  1. Aineorientoituneita

Tietovarastoa voidaan käyttää tietyn aihealueen, kuten myynnin, rahoituksen ja varaston, analysointiin. Jokainen aihealue sisältää yksityiskohtaisia ​​tietoja.

  1. Integroitu

Tietovarasto integroi useista tietolähteistä tulevat tiedot. Esimerkiksi päivämäärät ovat samassa muodossa, miesten / naisten koodit ovat yhdenmukaiset. Tietovarastoissa on vain yksi tapa tunnistaa tuote ja he käyttävät samaa asiakasrekisteriä, eivät kopioita

  1. Haihtumaton

Tiedot varastoidaan tietovarastoon muuttamattomana, ja se ei muutu. Joten tietovaraston historiallista tietoa ei pitäisi koskaan muuttaa.

  1. Aika-variantti

tietovarastoon voi hakea tietoja 3 kuukaudesta, 6 kuukaudesta, 12 kuukaudesta tai jopa vanhemmista tiedoista.

  1. Ei virtuaalinen

Tietovarasto on fyysinen, pysyvä arkisto.

Tietovarasto vs. Hadoop (infografia)

Alla on kuusi suosituinta vertailua Data Warehouse: n ja Hadoopin välillä

Tietovarasto vs. Hadoop - mitä käyttää?

  • Jos sinulla on puhdasta, johdonmukaista ja korkealaatuista tietoa, sinun kannattaa mennä Data Warehouse -palveluun, koska Hadoopista puuttuu tiedon laatu joissakin ratkaisuissa.
  • Jos sinulla on raakatonta jäsentelemätöntä tietoa, sinun pitäisi etsiä Hadoop, koska Hadoop toimii hyvin jäsentämättömän / raakatiedon kanssa, mutta Data Warehouse toimii vain jäsennellyn datan kanssa.
  • Jos sinulla on alhainen viive ja interaktiiviset raportit, sinun pitäisi siirtyä Tietovarastoon
  • OLTP- / Reaaliaika- / Pistekyselyjen tapauksessa sinun on siirryttävä tietovarastoon, koska Hadoop toimii hyvin eräajotietojen kanssa.
  • Jos haluat käyttää suuria määriä tietojoukkoja, sinun pitäisi etsiä Hadoop, koska Hadoop on tarkoitettu ratkaisemaan suuria dataongelmia.

Head to Head -vertailutaulukko tietovaraston ja Hadoopin välillä

Alla on luettelo pisteistä, jotka kuvaavat Tietovaraston ja Hadoopin vertailuja

Vertailun perusteetTietovarastoHadoop
dataTietovarastossa analysoimme jäsenneltyä ja prosessoitua tietoaHadoopissa voimme käsitellä kaikenlaista tietoa, mukaan lukien jäsennelty / jäsentämätön / osittain jäsentämätön ja raaka
käsittelySen käsittely perustuu schema-on-write -konsepteihinSen käsittely perustuu skeemalla luettuihin käsitteisiin
varastointiSoveltuu pienen määrän tietoihin, ja se on liian kallista suuren määrän tietoihinSe toimii hyvin suurten tietojoukkojen ollessa valtava tilavuus, nopeus ja monimuotoisuus
ketteryysSe on vähemmän ketterä ja kiinteän kokoonpanonSe on erittäin ketterä, määritä ja konfiguroi tarvittaessa
turvallisuusTietovarastotekniikat ovat olleet olemassa jo vuosikymmenien ajan. Siksi turvallisuuden kannalta voimme luottaa Data WarehouseenVaikka Hadoop-tekniikat ovat suhteellisen uusia verrattuna Data Warehouseen, turvallisuus on tässä suuri huolenaihe
käyttäjätLiike-elämän ammattilaiset käyttävät yleensä tietovarastoaHadoop on melko kuuluisa tietotekniikan ja tietotekniikan alalta

Johtopäätös - tietovarasto vs. Hadoop

Nyt tiedämme Data Warehousesta ja Hadoopista molemmat, palatkaamme takaisin tutkimaan kysymystä, jonka kysyimme tämän Data Warehouse- ja Hadoop-artikkelin alussa -

1) jos sinulla on suuria tietoja, tarvitsetko tietovarasto?

Vastaus - niin kauan kuin organisaatiosi tarvitsee luotettavaa, uskottavaa ja helposti saatavilla olevaa tietoa, tarvitset tietovaraston.

2) Korvaako Hadoop tietovaraston?

Vastaus - Tietovaraston ja Hadoopin vertailu on kuin omenoiden ja appelsiinien vertailu. Molemmilla Data Warehouse- ja Hadoop-ohjelmilla on omat edunsa erilaisissa käyttötapauksissa. Joissakin tapauksissa olemme edelleen riippuvaisia ​​perinteisistä Data Warehouse -tekniikoista, mutta ajan muuttuessa keskitymme enemmän Hadoop Frameworkiin käsittelemään Big Data -ongelmia.

3) Onko tämä perinteisen Data Warehouse -kauden kuolema?

Vastaus - Kuten huomaat, tämä ei oikeastaan ​​ole yksinkertainen kysymys, joten se ei sovellu hyvin yksinkertaiselle vastaukselle. On totta, että iso data muuttaa perinteistä tietovarastointimenetelmää tulevina tulevina vuosina, mutta se ei vanhenna tietovarastoinnin käsitteitä ja käytäntöä.

Suositeltava artikkeli

Tämä on ollut hyödyllinen opas tietovarastoon vs. Hadoop. Tässä olemme keskustelleet niiden merkityksestä, päästä toiseen -vertailuun, avaineroon ja johtopäätöksiin. Voit myös tarkastella seuraavaa artikkelia saadaksesi lisätietoja -

  1. Hadoop vs Splunk - selvitä parhaat 7 erotusta
  2. Hadoop vs Elasticsearch - kumpi on hyödyllisempi
  3. Big Data vs. Data Warehouse - selvitä parhaat erot
  4. Liiketoimintatieto ja tietovarasto
  5. Splunk vs Nagios

Luokka: