Johdanto datan louhinnan tyyppeihin
Termi ”tiedon louhinta” tarkoittaa, että meidän on tutkittava suurta aineistoa ja kaivoksen tietoja samasta kuvaamaan ydin siitä, mitä tiedot haluavat sanoa. Hyvin samankaltainen kuin hiilen louhinta, jossa kivihiiltä louhitaan erilaisilla työkaluilla, tiedon louhintaan liittyy myös työkaluja tietojen hyödyntämiseksi parhaalla mahdollisella tavalla. Yksi hyvin yleinen väärinkäsitys tietojen louhinnassa on, että sitä ajatellaan asiana, josta yritämme poimia uutta tietoa, mutta se ei aina ole totta. Se tarkoittaa myös jotain, jossa yritämme saada merkityksen jo olemassa olevista tiedoista. Siten tiedon louhinta on sinänsä laaja kenttä, jossa muutaman seuraavan kappaleen aikana syventämme syvällisemmin Data Miningin työkaluja. Tässä artikkelissa keskustelemme tiedon louhinnan tyypeistä.
Mikä on tiedon louhinta?
Kuten aiemmin puhuttiin tietojen louhinnasta, tiedon louhinta on prosessi, jossa yritämme tuoda parhaan mahdollisen hyödyn tiedosta. Tiedon louhinnan työkalut toimivat sillana datan ja datasta saatavan tiedon välillä. Muutamassa blogissa tiedon louhinta kutsutaan myös tiedon löytämiseksi. Haluaisimme tässä antaa lyhyen kuvan datan louhinnan toteutusprosessista, jotta datan louhinnan taustalla oleva intuitio on selkeä ja siitä tulee lukijoiden helppo ymmärtää. Vuokaavion alapuolella on vuo:
Edellä käsitellyssä prosessissa on työkaluja jokaisella tasolla, ja yrittäisimme syvällisesti sukeltaa tärkeimpiin.
Tietojen louhinnan tyypit
Tiedon louhinta voidaan suorittaa seuraaville tiedostotyypeille:
1. Tasoitus (valmistele tiedot)
Tämä erityinen tiedon louhintatekniikan menetelmä kuuluu datan valmistelun tyyliin. Tämän tekniikan päätarkoitus on melun poistaminen tiedoista. Täällä algoritmeja, kuten yksinkertaista eksponentiaalia, liikkuvaa keskiarvoa käytetään melun poistamiseen. Tutkivassa analyysissä tämä tekniikka on erittäin kätevä visualisoimaan suuntauksia / tunteita.
2. Yhdistäminen (valmistele tiedot)
Kuten termi ehdottaa, tietoryhmä yhdistetään lisätietojen saamiseksi. Tätä tekniikkaa käytetään antamaan yleiskuva liiketoiminnan tavoitteista, ja se voidaan suorittaa manuaalisesti tai käyttämällä erikoistuneita ohjelmistoja. Tätä tekniikkaa käytetään yleensä isoissa tiedoissa, koska iso data ei tarjoa vaadittua tietoa kokonaisuutena.
3. Yleistäminen (valmistele tiedot)
Jälleen, kuten nimestä voi päätellä, tätä tekniikkaa käytetään datan yleistämiseen kokonaisuutena. Tämä eroaa aggregoinnista sillä tavalla, että tietoja yleistymisen aikana ei ole ryhmitelty yhteen saadakseen lisää tietoa, mutta puolestaan koko tietojoukko on yleistetty. Tämän avulla tietotieteellinen malli voi sopeutua uudempiin tietopisteisiin.
4. Normalisointi (valmistele tiedot)
Tässä tekniikassa datapisteisiin kiinnitetään erityistä huomiota, jotta ne voidaan tuoda samaan mittakaavaan analysointia varten. Esimerkiksi ihmisen ikä ja palkka laskevat eri mitta-asteikoissa, joten niiden piirtäminen kuvaajaan ei auta meitä saamaan hyödyllistä tietoa kollektiivisena piirteenä esiintyvistä suuntauksista. Normaalisointia käyttämällä voimme saada ne tasa-arvoisiksi, jotta voidaan suorittaa omena-omena -vertailu.
5. Ominaisuuden / ominaisuuden valinta (valmistele tiedot)
Tässä tekniikassa käytämme menetelmiä valikoiman ominaisuuksien suorittamiseksi, jotta tietojoukkojen kouluttamiseen käytetty malli voi merkitä arvoa ennustaa tietoja, joita se ei ole nähnyt. Tämä on hyvin analogista valitsemalla oikeat asut vaatekaapista, joka on täynnä vaatteita sopimaan itsellesi tapahtumaan. Ei-merkitykselliset ominaisuudet voivat vaikuttaa negatiivisesti mallin suorituskykyyn, puhumattakaan suorituskyvyn parantamisesta.
6. Luokittelu (mallinee tiedot)
Tässä tiedon louhinnan tekniikassa käsittelemme ryhmiä, jotka tunnetaan nimellä "luokat". Käytämme tässä tekniikassa valittuja ominaisuuksia (kuten edellä on käsitelty) yhdessä ryhmiin / luokkiin. Esimerkiksi kaupassa, jos meidän on arvioitava, ostaako henkilö tuotteen vai ei, on olemassa ”n” määrä ominaisuuksia, joita voimme yhdessä käyttää saadaksesi tosi / vääriä tuloksia.
7. Kuvion seuranta
Tämä on yksi perus- tekniikoista, joita käytetään tiedon louhintaan saadakseen tietoja trendeistä / malleista, joita datapisteet voivat näyttää. Voimme esimerkiksi määrittää trendi, jonka mukaan myynti kasvaa enemmän viikonloppuna tai lomana, ei arkipäivinä tai työpäivinä.
8. Ulkopuolinen analyysi tai poikkeaman havaitseminen
Tätä tekniikkaa, kuten nimestäkin käy ilmi, käytetään poikkeamien tai poikkeavuuksien löytämiseen tai analysointiin. Poikkeamat tai poikkeamat eivät ole negatiivisia tietopisteitä, ne ovat vain jotain, joka erottuu koko tietoaineiston yleisestä kehityksestä. Tunnistaessamme poikkeamat voimme joko poistaa ne kokonaan tietojoukosta, mikä tapahtuu, kun tiedot valmistellaan. Tai muuten tätä tekniikkaa käytetään laajasti mallitietojoukossa myös poikkeamien ennustamiseen.
9. Klusterointi
Tämä tekniikka on melko samankaltainen luokittelun kanssa, mutta ainoa ero on, että emme tiedä ryhmää, johon datapisteet kuuluvat ryhmittelyn jälkeen ominaisuuksien keräämisen jälkeen. Tätä menetelmää käytetään tyypillisesti ihmisten ryhmittelyssä kohdentamaan samanlaisia tuotesuosituksia.
10. Regressio
Tätä tekniikkaa käytetään ennustamaan ominaisuuden todennäköisyys muiden ominaisuuksien kanssa. Voimme esimerkiksi muotoilla esineen hinnan todennäköisyyden kysynnän, kilpailun ja muutamien muiden ominaisuuksien suhteen.
11. Neuraaliverkko
Tämä tekniikka perustuu biologisten hermosolujen toiminnan periaatteeseen. Samoin kuin mitä ihmiskehon neuronit tekevät, hermoverkon neuronit datan louhinnassa toimivat myös prosessointiyksikkönä ja yhdistävät toisen neuronin tiedon välittämiseksi ketjun varrella.
12. Yhdistys
Tässä tiedon louhintamenetelmässä määritetään eri ominaisuuksien välinen suhde ja sitä käytetään vuorostaan joko piilotettujen kuvioiden löytämiseen tai niihin liittyvään analyysiin suoritetaan liiketoimintavaatimuksia kohti. Esimerkiksi yhdistämistä käyttämällä voimme löytää ominaisuuksia, jotka korreloivat toisiinsa, ja korostaa siten kenenkään poistamista, jotta voidaan poistaa joitain tarpeettomia ominaisuuksia ja parantaa käsittelytehoa / aikaa.
johtopäätös
Lopuksi voidaan todeta, että on olemassa erilaisia vaatimuksia, jotka tulisi pitää mielessä tiedon louhinnan aikana. On oltava hyvin varovainen tuloksen odotetaan olevan, jotta vastaavia tekniikoita voidaan käyttää tavoitteen saavuttamiseen. Vaikka tiedon louhinta on kehittyvä tila, olemme yrittäneet luoda tyhjentävän luettelon kaikenlaisista Data louhinnan työkaluista lukijoille.
Suositellut artikkelit
Tämä on opas tietojen louhinnan tyyppiin. Tässä keskustellaan johdannosta ja 12 tärkeimmästä tietolouhinnan tyypistä. Voit myös käydä läpi muiden ehdottamiemme artikkeleidemme -
- Tietojen louhinnan edut
- Tietojen louhinnan arkkitehtuuri
- Tiedon louhintamenetelmät
- Tietojen louhinnan työkalu
- Tyypit mallit tiedon louhinnan