Erot tietovaraston ja Hadoopin välillä
Jokaisessa vuosikymmenessä IT-teollisuus kokee merkittävän innovaation, joka ravistaa koko IT-alaa. Viime vuosina Apache Hadoop on tehnyt saman asian infusoimalla tietokeskuksia uudella infrastruktuurilla
Antamalla rinnakkaiskäsittelyn voima ohjelmoijalle Hadoop on sellaisenaan eksponentiaalisessa nousussa ja sen ekosysteemi laajenee sekä syvyydessä että leveydessä, on luonnollista kysyä, aikooko Hadoop korvata perinteisen tietovaraston.
Katsotaanpa mitä Alasdair Anderson (Nordean varatoimitusjohtaja) sanoi Hadoop-huippukokouksessa tästä kuumasta aiheesta kaupungissa.
”EDW: n ja Hadoopin välillä ei ole tällä hetkellä mitään suhdetta - ne tulevat olemaan toisiaan täydentäviä. Kyse ei ole kopioinnista ja korvaa: emme aio päästä eroon RDBMS: stä tai MPP: stä, vaan käytämme sen sijaan oikeaa työkalua oikeaan työhön - ja hinta vaikuttaa siihen suuresti. ”
Aina kun tämä mielenkiintoinen keskustelu alkaa, mieleemme tulee paljon kysymyksiä, kuten:
1) Jos sinulla on suuria tietoja, tarvitsetko tietovarasto?
2) Korvaako Hadoop tietovaraston?
3) Onko tämä perinteisen Data Warehouse -kauden kuolema?
Jotta tiedämme vastaukset kaikkiin näihin kysymyksiin, meidän on tutkittava tämän kuvan laajempaa kontekstia.
1. Mikä on Hadoop?
Kuka ei ole kuullut Big Datasta viime aikoina? Koska satoja teratavuja tietoja luodaan päivittäin eri lähteistä, on selvää, että nykypäivän moderni maailma on iso datamaailma
Kun aloitat puhua Big Data -palvelusta, keskustelet ennemmin tai myöhemmin Big Data -maailman kuumin aihe: Hadoop - mutta mikä se oikeastaan on?
Hadoop on avoimen lähdekoodin Java-pohjainen ohjelmointikehys, joka tukee erittäin suurten tietojoukkojen käsittelyä ja tallentamista hajautetussa laskentaympäristössä.
Hadoopin 4 moduulia -
Hadoop koostuu 4 moduulista -
- Hajautettu tiedostojärjestelmä
Hajautettu tiedostojärjestelmä mahdollistaa tietojen tallentamisen helposti saatavilla olevassa muodossa monien linkitettyjen tallennuslaitteiden yli.
- Kartta pienennä
Map Reduce on kahden operaation yhdistelmä - datan lukeminen tietokannasta ja asettaminen analyysiin sopivaan muotoon (kartta) ja matemaattisten toimintojen suorittaminen (pienennys).
- Hadoop Yhteinen
Hadoop Common tarjoaa työkalut, joita tarvitaan HDFS: ään (Hadoop Distributed File System) tallennettuihin tietoihin.
- LANKA
YARN hallitsee järjestelmien resursseja, jotka tallentavat tietoja ja suorittavat analyysin.
2. Mikä on tietovarasto?
Tietovarasto on relaatiotietokanta, joka on suunniteltu kysely- ja analyysitietoihin. Se sisältää yleensä eri lähteistä peräisin olevia historiallisia tietoja.
Tietovarastoympäristö sisältää ETL-ratkaisut, online-analyyttisen käsittelyn (OLAP) moottorin, asiakasanalyysityökalut ja muut sovellukset, jotka hallitsevat tietojen analysointiprosessia ja toimittamista yrityksille.
Tehdään yhteenveto mitä tietovarasto on -
-
Aineorientoituneita
Tietovarastoa voidaan käyttää tietyn aihealueen, kuten myynnin, rahoituksen ja varaston, analysointiin. Jokainen aihealue sisältää yksityiskohtaisia tietoja.
-
Integroitu
Tietovarasto integroi useista tietolähteistä tulevat tiedot. Esimerkiksi päivämäärät ovat samassa muodossa, miesten / naisten koodit ovat yhdenmukaiset. Tietovarastoissa on vain yksi tapa tunnistaa tuote ja he käyttävät samaa asiakasrekisteriä, eivät kopioita
-
Haihtumaton
Tiedot varastoidaan tietovarastoon muuttamattomana, ja se ei muutu. Joten tietovaraston historiallista tietoa ei pitäisi koskaan muuttaa.
-
Aika-variantti
tietovarastoon voi hakea tietoja 3 kuukaudesta, 6 kuukaudesta, 12 kuukaudesta tai jopa vanhemmista tiedoista.
-
Ei virtuaalinen
Tietovarasto on fyysinen, pysyvä arkisto.
Tietovarasto vs. Hadoop (infografia)
Alla on kuusi suosituinta vertailua Data Warehouse: n ja Hadoopin välillä
Tietovarasto vs. Hadoop - mitä käyttää?
- Jos sinulla on puhdasta, johdonmukaista ja korkealaatuista tietoa, sinun kannattaa mennä Data Warehouse -palveluun, koska Hadoopista puuttuu tiedon laatu joissakin ratkaisuissa.
- Jos sinulla on raakatonta jäsentelemätöntä tietoa, sinun pitäisi etsiä Hadoop, koska Hadoop toimii hyvin jäsentämättömän / raakatiedon kanssa, mutta Data Warehouse toimii vain jäsennellyn datan kanssa.
- Jos sinulla on alhainen viive ja interaktiiviset raportit, sinun pitäisi siirtyä Tietovarastoon
- OLTP- / Reaaliaika- / Pistekyselyjen tapauksessa sinun on siirryttävä tietovarastoon, koska Hadoop toimii hyvin eräajotietojen kanssa.
- Jos haluat käyttää suuria määriä tietojoukkoja, sinun pitäisi etsiä Hadoop, koska Hadoop on tarkoitettu ratkaisemaan suuria dataongelmia.
Head to Head -vertailutaulukko tietovaraston ja Hadoopin välillä
Alla on luettelo pisteistä, jotka kuvaavat Tietovaraston ja Hadoopin vertailuja
Vertailun perusteet | Tietovarasto | Hadoop |
data | Tietovarastossa analysoimme jäsenneltyä ja prosessoitua tietoa | Hadoopissa voimme käsitellä kaikenlaista tietoa, mukaan lukien jäsennelty / jäsentämätön / osittain jäsentämätön ja raaka |
käsittely | Sen käsittely perustuu schema-on-write -konsepteihin | Sen käsittely perustuu skeemalla luettuihin käsitteisiin |
varastointi | Soveltuu pienen määrän tietoihin, ja se on liian kallista suuren määrän tietoihin | Se toimii hyvin suurten tietojoukkojen ollessa valtava tilavuus, nopeus ja monimuotoisuus |
ketteryys | Se on vähemmän ketterä ja kiinteän kokoonpanon | Se on erittäin ketterä, määritä ja konfiguroi tarvittaessa |
turvallisuus | Tietovarastotekniikat ovat olleet olemassa jo vuosikymmenien ajan. Siksi turvallisuuden kannalta voimme luottaa Data Warehouseen | Vaikka Hadoop-tekniikat ovat suhteellisen uusia verrattuna Data Warehouseen, turvallisuus on tässä suuri huolenaihe |
käyttäjät | Liike-elämän ammattilaiset käyttävät yleensä tietovarastoa | Hadoop on melko kuuluisa tietotekniikan ja tietotekniikan alalta |
Johtopäätös - tietovarasto vs. Hadoop
Nyt tiedämme Data Warehousesta ja Hadoopista molemmat, palatkaamme takaisin tutkimaan kysymystä, jonka kysyimme tämän Data Warehouse- ja Hadoop-artikkelin alussa -
1) jos sinulla on suuria tietoja, tarvitsetko tietovarasto?
Vastaus - niin kauan kuin organisaatiosi tarvitsee luotettavaa, uskottavaa ja helposti saatavilla olevaa tietoa, tarvitset tietovaraston.
2) Korvaako Hadoop tietovaraston?
Vastaus - Tietovaraston ja Hadoopin vertailu on kuin omenoiden ja appelsiinien vertailu. Molemmilla Data Warehouse- ja Hadoop-ohjelmilla on omat edunsa erilaisissa käyttötapauksissa. Joissakin tapauksissa olemme edelleen riippuvaisia perinteisistä Data Warehouse -tekniikoista, mutta ajan muuttuessa keskitymme enemmän Hadoop Frameworkiin käsittelemään Big Data -ongelmia.
3) Onko tämä perinteisen Data Warehouse -kauden kuolema?
Vastaus - Kuten huomaat, tämä ei oikeastaan ole yksinkertainen kysymys, joten se ei sovellu hyvin yksinkertaiselle vastaukselle. On totta, että iso data muuttaa perinteistä tietovarastointimenetelmää tulevina tulevina vuosina, mutta se ei vanhenna tietovarastoinnin käsitteitä ja käytäntöä.
Suositeltava artikkeli
Tämä on ollut hyödyllinen opas tietovarastoon vs. Hadoop. Tässä olemme keskustelleet niiden merkityksestä, päästä toiseen -vertailuun, avaineroon ja johtopäätöksiin. Voit myös tarkastella seuraavaa artikkelia saadaksesi lisätietoja -
- Hadoop vs Splunk - selvitä parhaat 7 erotusta
- Hadoop vs Elasticsearch - kumpi on hyödyllisempi
- Big Data vs. Data Warehouse - selvitä parhaat erot
- Liiketoimintatieto ja tietovarasto
- Splunk vs Nagios