Mikä on Data Analytics - Erityyppiset data-analyysit

Sisällysluettelo:

Anonim

Mikä on Data Analytics?

Data Analytics on prosessi, jolla löydetään keskeisiä oivalluksia ja arvokkaita johtopäätöksiä valtavasta määrästä tietoja, jotka on kerätty tai kerätty eri lähteistä päätöksenteon tueksi. Lisääntynyt laskentateho, korkea käsittelynopeus. Vuorovaikutteisten loppukäyttäjärajapintojen tulo ja hajautetun laskentakäytäntöjen todistettu tehokkuus käsitellä suuria datapaloja tekivät tietoanalyysit eteneviksi kaikilla aloilla, näkyvästi vähittäiskaupassa, pankkitoiminnassa, terveydenhuollossa, logistiikassa, puolustuksessa, julkishallinnossa jne.

Tietoanalyysityypit

Data Analytics -prosessi luokitellaan subjektiivisesti kolmeen tyyppiin datan analysointitarkoituksen perusteella

  • Kuvaileva Analytics
  • Ennustava analyysi
  • Prescriptive Analytics

Edellä lueteltujen Analytics-tyyppien ominaisuudet on kuvattu alla:

1. Kuvaileva analyysi

Kuvaileva Analytics keskittyy aikaisempien tietojen yhteenvetoon päätelmien saamiseksi. Yleisimmin käytettyihin toimenpiteisiin historiallisen datan jakautumisen karakterisoimiseksi sisältyy

  • Keskustendenssin mitat - keskiarvo, mediaani, kvartili, tila.
  • Vaihtelevuuden tai leviämisen mitat - Alue, Kvartilien välinen alue, Prosentuaalit.

Viime aikoina vaikeudet ja rajoitukset, jotka liittyvät massiivisten tietokassojen keräämiseen, tallentamiseen ja ymmärtämiseen, poistetaan tilastollisella päätelmäprosessilla. Yleisimmät päätelmät väestötietojen tilastoista johdetaan käyttämällä näytteenottomenetelmiä yhdessä keskitetyn rajoitusteorian soveltamisen kanssa.

Johtava uutisten lähetystoiminnan harjoittaja kerää vaalipäivänä äänestystiedot satunnaisesti valituista äänestäjistä äänestysaseman poistumispisteessä saadakseen tilastollisia päätelmiä koko väestön mieltymyksistä.

Väestötietojoukon toistuva näytteenotto johtaa näytteen paloihin, joiden näytteen koko on riittävän suuri. Klusteroitu näytteenotto on yleensä edullisempaa hyvin stratifioitujen, puolueettomien populaatiotietojoukkojen edustajien muodostamiseksi. Kiinnostava tilastollinen mitta lasketaan näytteistetyistä datapaloista, jotta saadaan otoksen tilastollisten arvojen jakauma, jota kutsutaan näytteen jakautumiseksi. Näytteen jakautumisen ominaisuudet liittyvät keskirajoitusteoriaa käyttävän väestötietojoukon ominaisuuksiin.

2. Ennustava analyysi

Ennustava analyysi hyödyntää historiallisen tai aiemman datan malleja arvioidakseen tulevia tuloksia, tunnistamaan suuntauksia, paljastamaan mahdolliset riskit ja mahdollisuudet tai ennustaa prosessikäyttäytymistä. Koska ennustamisen käyttötapaukset ovat luonteeltaan uskottavia, näissä lähestymistavoissa käytetään todennäköisyysmalleja kaikkien mahdollisten tulosten todennäköisyyden mittaamiseksi.

Rahoitusyrityksen asiakaspalveluportaalin chatBot oppii ennakoivasti asiakkaiden aikomuksen tai tarpeen perustaa hänen aikaisempaan toimintaansa verkkotunnuksessaan. Ennustetussa tilanteessa chatBot keskustelee vuorovaikutteisesti asiakkaan kanssa tarjotakseen sopivia palveluita nopeasti ja saavuttaaksesi paremman asiakastyytyväisyyden.

Extrapolaatioskenaarioiden lisäksi, joilla ennustetaan tulevaisuuden tapahtumia käytettävissä olevien aiempien tietojen perusteella, on muutama sovellus, jotka arvaavat menetettyjen tietojen syöttämisen käytettävissä olevien tietonäytteiden avulla. Tätä annettujen datanäytteiden alueella menetettyjen arvojen likiarvoa kutsutaan teknisesti interpoloinniksi.

Tehokas kuvankäsittelysovellus tukee tekstuurin menetettyjen osien rekonstruointia super-asetetun tekstin takia interpoloimalla ominaisuustoiminto jäädytettyyn lohkoon. Ominaisuustoiminto voidaan tulkita vääristyneen kuvan rakenteessa olevien matemaattisten kuvioiden merkinnäksi.

Ennustavien mallien / strategioiden valintaan vaikuttavat merkittävät tekijät:

  • Ennusteiden tarkkuus: Tämä välittää ennustetun arvon ja todellisen arvon välisen läheisyyden asteen. Ennustetun arvon ja todellisen arvon välisen eron pienempi varianssi merkitsee suurempaa ennustemallin tarkkuutta.
  • Ennusteiden nopeus: Se on etusijalla reaaliaikaisessa seurantasovelluksessa
  • Mallin oppimisnopeus: Se riippuu mallin monimutkaisuudesta ja laskelmista, jotka liittyvät mallin parametrien laskemiseen.

3. Prescriptive Analytics

Prescriptive Analytics käyttää löydettyä tietoa osana sekä kuvaavaa että ennustavaa analyysiä suositellaan asiayhteyteen liittyvää toimintatapaa. Edistyneitä tilastollisia tekniikoita ja laskennallisesti intensiivisiä optimointimenetelmiä toteutetaan ymmärtämään arvioitujen ennusteiden jakauma.

Kunkin tuloksen vaikutus ja hyöty, jotka arvioidaan ennusteanalyysin aikana, tarkein ehdoin arvioidaan heurististen ja aikaherkkien päätösten tekemiseksi tietyille olosuhteille.

Osakemarkkinaneuvontayritys suorittaa SWOT (vahvuus, heikkous, mahdollisuudet ja uhka) -analyysin sijoittajien salkun osakkeiden ennustetuista hinnoista ja suosittelee parhaita osta-myy-vaihtoehtoja asiakkailleen.

Prosessin kulku Data Analyticsissa

Tietoanalyysin prosessissa on erilaisia ​​tietojenkäsittelyvaiheita, kuten alla selitetään:

1. Tietojen poiminta

Tietojen syöttäminen useista erityyppisistä tietolähteistä, mukaan lukien verkkosivut, tietokannat, vanhat sovellukset, johtaa tulostustietoihin eri muodoissa. Tietoanalytiikkavirtaan syötetyt tietomuodot voidaan luokitella yleisesti

  • Rakenteellisissa tiedoissa on selkeä määritelmä tietotyypeistä sekä niihin liittyvä kenttäpituus tai kentän rajoittimet. Tämän tyyppisiä tietoja voidaan helposti kysyä, kuten relaatiotietokantaan (RDBMS) tallennettua sisältöä.
  • Puolirakenteellisesta tiedosta puuttuu tarkka asettelumääritelmä, mutta tietoelementit voidaan tunnistaa, erottaa ja ryhmitellä vakiokaavion tai muiden metatietosääntöjen perusteella. XML-tiedosto käyttää koodausta tietojen pitämiseen, kun taas Javascript object Notation -tiedosto (JSON) pitää tietoja nimellisarvopareissa. NoSQL (paitsi SQL) -tietokannat kuten MongoDB, mutta sohvapohjaa käytetään myös puolijärjestelmällisen tiedon tallentamiseen.
  • Strukturoimattomaan tietoon sisältyy sosiaalisen median keskusteluja, kuvia, äänileikkeitä jne. Perinteiset tietojen jäsentämismenetelmät eivät ymmärrä näitä tietoja. Järjestelemätöntä tietoa tallennetaan datajärviin.

Strukturoidun ja osittain jäsennellyn datan jäsentämisen toteutus on sisällytetty useisiin ETL-työkaluihin, kuten Ab Initio, Informatica, Datastage ja avoimen lähdekoodin vaihtoehtoihin, kuten Talend.

2. Tietojen puhdistus ja muuntaminen

Jäsennetyt tiedot puhdistetaan, jotta varmistetaan tietojen yhdenmukaisuus ja asiaankuuluvien tietojen saatavuus prosessivirheen myöhemmille vaiheille. Tärkeimmät puhdistustoimenpiteet data-analytiikassa ovat:

  • Poikkeamien havaitseminen ja eliminointi tietomäärissä
  • Kopioiden poistaminen aineistosta
  • Tietojen tietueiden puuttuvien kohtien käsittely toiminnallisuuden tai käyttötapausten avulla
  • Tietotietueiden, kuten ”31. helmikuuta”, sallittujen kenttäarvojen validoinnit eivät voi olla kelvollinen arvo missään päivämääräkentässä.

Puhdistettu data muunnetaan sopivaan muotoon tietojen analysoimiseksi. Tietojen muunnoksiin sisältyy

  • Suodatin ei-toivottuja tietueita.
  • Eri lähteistä haettujen tietojen yhdistäminen.
  • Tietojen aggregointi tai ryhmittely
  • Tietojen lajittelu

3. KPI / Insight-johto

Tietojen louhinta- ja syväoppimismenetelmiä käytetään arvioimaan avainsuoritusindikaattoreita (KPI) tai saamaan arvokkaita tietoja puhdistetusta ja muunnetusta tiedosta. Analytiikan tavoitteeseen perustuen data-analyysi suoritetaan käyttämällä erilaisia ​​kuvontunnistustekniikoita, kuten k-keinojen klusterointia, SVM-luokitusta, Bayesin luokittelijoita jne. Ja koneoppimismalleja, kuten Markov-malleja, Gaussian sekoitusmalleja (GMM) jne.

Todennäköiset mallit oppimisvaiheessa oppivat optimaaliset malliparametrit ja validointivaiheessa malli testataan k-kertaisella ristivalidointitestauksella liiallisten ja liian istuvien virheiden välttämiseksi.

Dataanalyysissä yleisimmin käytetty ohjelmointikieli on R ja Python. Molemmilla on rikas kirjasto (SciPy, NumPy, Pandas), jotka ovat avoimia lähteitä suorittamaan monimutkainen data-analyysi.

4. Tietojen visualisointi

Tietojen visualisointi on prosessi, jossa esitetään selkeä ja tehokas peittämättömät mallit, niistä johdetut johtopäätökset käyttämällä kuvaajia, kaavioita, kojetauluja ja grafiikkaa.

  • Tietoraportointityökalut, kuten QlikView, Tableau jne., Esittävät KPI: tä ja muita johdettuja mittareita eri rakeustasoilla.
  • Raportointityökalujen avulla loppukäyttäjät voivat luoda räätälöityjä raportteja kääntö- ja porausvaihtoehdoilla käyttäjäystävällisen vedä ja pudota -rajapintojen avulla
  • Interaktiivisia tietojen visualisointikirjastoja, kuten D3.js (Data-ajatut asiakirjat), HTML5-Anycharts jne. Käytetään lisäämään kykyä tutkia analysoitua tietoa

Suositellut artikkelit

Tämä on opas Mikä on Data Analytics. Tässä keskustelimme erityyppisestä data-analytiikasta prosessivirran kanssa. Voit myös käydä läpi muita ehdotettuja artikkeleita saadaksesi lisätietoja -

  1. Tietoanalyytikon haastattelua koskevat kysymykset ja vastaukset
  2. Mikä on datan visualisointi?
  3. Mikä on Big data -analytiikka?
  4. Mikä on Minitab?