Johdanto tiedon louhintamenetelmiin

Tiedot kasvavat päivittäin valtavassa mittakaavassa. Mutta kaikki kerätyt tai kerätyt tiedot eivät ole hyödyllisiä. Merkityksellinen tieto on erotettava meluisasta tiedosta (merkityksettömästä tiedosta). Tämä erotusprosessi tapahtuu datan louhinnalla.

Mikä on tiedon louhinta?

Tiedon louhinta on prosessi, jolla saadaan hyödyllistä tietoa tai tietoa valtavasta määrästä dataa (tai suurta dataa). Aineistoa ja tietoa on vähennetty käyttämällä erilaisia ​​tiedonkeruun työkaluja. Tiedonlouhinta voidaan kutsua myös tiedon löytämiseksi datasta tai KDD: stä .

Lähteet: - www.ques10.com

Tiedon louhinta voidaan suorittaa erityyppisissä tietokannoissa ja tietovarastoissa, kuten relaatiotietokannat, tietovarastot, transaktiotietokannat, tietovirrat ja monet muut.

Erilaiset tiedon louhintamenetelmät:

Tietojen louhintaan käytetään monia menetelmiä, mutta ratkaiseva vaihe on valita niistä sopiva menetelmä liiketoiminnan tai ongelmalausunnon mukaan. Nämä tiedon louhintamenetelmät auttavat ennustamaan tulevaisuutta ja tekemään sitten päätöksiä vastaavasti. Ne auttavat myös markkinatrendin analysoinnissa ja yrityksen tulojen kasvattamisessa.

Jotkut tiedon louhintamenetelmät ovat:

  • yhdistys
  • Luokittelu
  • Klusterianalyysi
  • ennustus
  • Peräkkäiset kuviot tai kuvien seuranta
  • Päätöspuut
  • Poikkeusanalyysi tai poikkeavuustutkimus
  • Neuraaliverkko

Ymmärrämme jokainen tiedon louhintamenetelmä yksi kerrallaan.

1. Yhdistys:

Se on menetelmä, jota käytetään etsimään korrelaatio kahden tai useamman kohteen välillä tunnistamalla tietojoukon piilotettu malli ja jota kutsutaan siten myös relaatioanalyysiksi . Tätä menetelmää käytetään markkinakorianalyysissä asiakkaan käyttäytymisen ennustamiseen.

Oletetaan, että supermarketin markkinointipäällikkö haluaa selvittää, mitkä tuotteet ostetaan usein yhdessä.

Esimerkiksi,

Osta (x, ”olut”) -> ostaa (x, “sirut”) (tuki = 1%, luottamus = 50%)

  • Tässä x edustaa asiakasta, joka ostaa olutta ja siruja yhdessä.
  • Luottamus osoittaa varmuuden siitä, että jos asiakas ostaa oluen, on 50% todennäköisyys, että hän ostaa myös sirut.
  • Tuki tarkoittaa, että 1% kaikista tutkituista tapahtumista osoitti oluen ja sirujen oston yhdessä.

Monet samanlaiset esimerkit, kuten leipä ja voi tai tietokone ja ohjelmistot, voidaan harkita.

Yhdistyssääntöjä on kahta tyyppiä:

  • Yksiulotteinen assosiaatiosääntö: Nämä säännöt sisältävät yhden määritteen, joka toistetaan.
  • Moniulotteinen yhdistämissääntö: Nämä säännöt sisältävät useita määritteitä, jotka toistetaan.

https://bit.ly/2N61gzR

2. Luokittelu:

Tätä tiedon louhintamenetelmää käytetään erottamaan tietojoukkojen kohteet luokkiin tai ryhmiin. Se auttaa ennustamaan tarkasti esineiden käyttäytymistä ryhmässä. Se on kaksivaiheinen prosessi:

  • Oppimisvaihe (harjoitusvaihe): Tässä luokittelualgoritmi rakentaa luokittelijan analysoimalla harjoitusjoukon.
  • Luokitteluvaihe: Testitietoja käytetään arvioimaan luokitussääntöjen tarkkuus tai tarkkuus.

Esimerkiksi pankkiyhtiö tunnistaa lainanhakijat matalilla, keskisuurilla tai korkeilla luottoriskeillä. Samoin lääketieteellinen tutkija analysoi syöpätiedot ennustaakseen, mitä lääkettä potilaalle määrätään.

Lähteet: - www.tutorialspoint.com

3. Klusterointianalyysi:

Klusterointi on melkein samankaltainen luokittelun kanssa, mutta tässä klusterissa tehdään tietoerien samankaltaisuuksista riippuen. Eri klustereissa on erilaisia ​​tai toisiinsa liittymättömiä objekteja. Sitä kutsutaan myös datasegmentiksi, koska se jakaa valtavat tietojoukot klustereihin yhtäläisyyksien mukaan.

Käytetään erilaisia ​​klusterointimenetelmiä:

  • Hierarkkiset agglomeratiiviset menetelmät
  • Ruudukkoon perustuvat menetelmät
  • Partitiointimenetelmät
  • Malliperusteiset menetelmät
  • Tiheyspohjaiset menetelmät

Samanlaista esimerkkiä lainanhakijoista voidaan pitää myös tässä. Seuraavassa kuvassa on joitain eroja.

https://bit.ly/2N6aZpP

4. Ennustaminen:

Tätä menetelmää käytetään ennustamaan tulevaisuus menneiden ja nykyisten suuntausten tai tietojoukon perusteella. Ennustetta käytetään enimmäkseen muiden tiedon louhintamenetelmien, kuten luokittelun, kuvioiden sovittamisen, suuntausten analysoinnin ja suhteiden kanssa.

Esimerkiksi, jos supermarketin myyntipäällikkö haluaa ennustaa tulojen määrän, jonka jokainen tuote tuottaa aikaisempien myyntitietojen perusteella. Se mallii jatkuvan arvotetun funktion, joka ennustaa puuttuvien numeeristen data-arvojen.

Lähteet: - data-mining.philippe-fournier

Regressioanalyysi on paras valinta suorittaa ennustaminen. Sitä voidaan käyttää asettamaan suhde riippumattomien muuttujien ja riippuvien muuttujien välille.

5. Peräkkäiset kuviot tai kuvien seuranta:

Tätä tiedon louhintamenetelmää käytetään tunnistamaan kuviot, joita esiintyy usein tietyn ajanjakson ajan.

Esimerkiksi vaatekauppayrityksen myyntipäällikkö näkee, että takien myynti näyttää lisääntyvän juuri ennen talvikautta tai leipomotuotteiden myynti kasvaa joulun tai uudenvuodenaattona.

Katsotaanpa esimerkkiä kuvaajalla

Lähteet: - data-mining.philippe-fournier-viger

6.Päätöpuut:

Päätöspuu on puurakenne (kuten nimensä viittaa), missä

  • Jokainen sisäinen solmu edustaa määritteen testiä.
  • Haara tarkoittaa testin tulosta.
  • Terminaalisolmut pitävät luokan etiketin.
  • Ylin solmu on juurisolmu, jolla on yksinkertainen kysymys, johon on kaksi tai enemmän vastauksia. Vastaavasti puu kasvaa ja syntyy vuokaavion kaltainen rakenne.

Lähteet: - www.tutorialride.com

Tässä päätöksessä puunhallitus luokittelee alle 18-vuotiaat tai yli 18-vuotiaat kansalaiset. Tämä auttaisi heitä päättämään, onko lupa myönnettävä tietylle kansalaiselle.

7.Ulkempi analyysi tai poikkeavuustutkimus:

Tätä tiedon louhintamenetelmää käytetään tunnistamaan tietokohteet, jotka eivät vastaa odotettua mallia tai odotettua käyttäytymistä. Näitä odottamattomia tietokohteita pidetään poikkeavuuksina tai meluna. Ne ovat hyödyllisiä monilla aloilla, kuten luottokorttipetoksien havaitseminen, tunkeutumisen havaitseminen, vikojen havaitseminen jne. Tätä kutsutaan myös ulkoiseksi louhinnaksi .

Oletetaan esimerkiksi, että alla oleva kaavio on piirretty käyttämällä joitain tietokantamme tietojoukkoja.

Joten parhaiten sopiva viiva on piirretty. Linjan lähellä olevat pisteet osoittavat odotettua käyttäytymistä, kun taas piste, joka on kaukana linjasta, on poikkeava.

Tämä auttaisi havaitsemaan poikkeamat ja toteuttamaan mahdolliset toimenpiteet sen mukaisesti.

https://bit.ly/2GrgjDP

8. Neuraaliverkko:

Tämä tiedon louhintamenetelmä tai -malli perustuu biologisiin hermoverkkoihin. Se on kokoelma neuroneja, kuten prosessointiyksiköitä, joilla on painotetut yhteydet niiden välillä. Niitä käytetään tulojen ja lähtöjen välisen suhteen mallintamiseen. Sitä käytetään luokitteluun, regressioanalyysiin, tietojenkäsittelyyn jne. Tämä tekniikka toimii kolmella pilarilla -

  • Malli
  • Oppimisalgoritmi (ohjattu tai valvomaton)
  • Aktivointitoiminto

Lähteet: - www.saedsayad.com

Suositellut artikkelit

Tämä on ollut opas tiedon louhintamenetelmiin. Tässä olemme keskustelleet siitä, mikä on tiedon louhinta ja erityyppiset tiedon louhintamenetelmät esimerkin kanssa. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. Big Data Analytics -ohjelmisto
  2. Tietorakenteen haastattelua koskevat kysymykset
  3. Tärkeitä tiedon louhintamenetelmiä
  4. Tietojen louhinnan arkkitehtuuri

Luokka: