Johdanto tiedonhaun päätöksentekopuuhun

Nykymaailmassa “Big Data” -maailmassa termi “datan louhinta” tarkoittaa, että meidän on tutkittava suuria tietojoukkoja ja suoritettava tietojen louhinta ja tuotava esiin tärkeä mehu tai ydin siitä, mitä tiedot haluavat sanoa. Hyvin analoginen tilanne on hiilen kaivostoiminnassa, jossa tarvitaan erilaisia ​​työkaluja syvän maan alle haudatun hiilen kaivokseen. Tietojen louhinnan työkaluista yksi niistä on päätöksentekopuu. Siten tietojen louhinta on sinänsä laaja kenttä, jossa muutaman seuraavan kappaleen aikana me syvälle sukellamme päätöksenteon puun "työkaluun" tiedon louhinnassa.

Tietojen louhinnan päätöksentekoalgoritmi

Päätöspuu on valvottu oppimislähestymistapa, jossa koulutamme läsnä olevaa tietoa jo tietämällä, mikä kohdemuuttuja todella on. Kuten nimestä voi päätellä, tällä algoritmilla on puutyyppinen rakenne. Tarkastellaan ensin päätöksenteon teoreettista puolta ja tutkitaan sitten sitä graafisessa lähestymistavassa. Päätöspuussa algoritmi jakaa tietojoukon osajoukkoihin tärkeimmän tai merkittävimmän ominaisuuden perusteella. Merkittävin attribuutti osoitetaan juurisolmussa, ja juuri siellä jakaminen juurisolmussa olevan koko tietojoukon kohdalta tapahtuu. Tätä jakamista kutsutaan päätöksentekosolmuiksi. Jollei enää jaosta ole mahdollista, solmua kutsutaan lehden solmuksi.

Algoritmin pysäyttämiseksi päästäkseen ylivoimaiseen vaiheeseen käytetään pysäytyskriteeriä. Yksi lopetuskriteereistä on havaintojen vähimmäismäärä solmussa ennen jakoa. Sovellettaessa päätöspuuta tietokokonaisuuden jakamisessa on oltava varovainen, että monilla solmuilla saattaa olla vain meluisa data. Jotta voidaan hoitaa syrjäiset tai meluisat tietoongelmat, käytämme tekniikoita, jotka tunnetaan nimellä Data Pruning. Tietojen karsiminen ei ole muuta kuin algoritmi tietojen luokittelemiseksi osajoukosta, mikä vaikeuttaa oppimista tietystä mallista.

Koneen tutkija J. Ross Quinlan julkaisi päätöksenteko-algoritmin ID3: na (Iterative Dichotomiser). Myöhemmin C4.5 julkaistiin ID3: n seuraajana. Sekä ID3 että C4.5 ovat ahne lähestymistapa. Tarkastellaan nyt vuokaaviota Päätöksen puun algoritmista.

Pseudokoodin ymmärtämistä varten otettaisiin “n” datapistettä, joilla jokaisella on “k” -määritteet. Vuokaavion alapuolella tehdään pitämällä mielessä ”Information Gain” jaon ehtona.

IG (on individual split) = Entropy before the split – Entropy after a split (On individual split)

Information Gain (IG): n sijaan voimme käyttää myös Gini-indeksiä jaon perusteena. Näiden kahden kriteerin välisen eron ymmärtämiseksi maallikolla voidaan ajatella tätä informaation voittoa entropian erona ennen jakamista ja jakamisen jälkeen (jako kaikkien käytettävissä olevien ominaisuuksien perusteella).

Entroopia on kuin sattumanvaraisuus ja saavuttaisimme pisteen jaon jälkeen, jotta satunnaisuustila olisi vähiten. Siksi tiedon saannin on oltava eniten ominaisuudessa, jonka haluamme jakaa. Muuten, jos haluamme valita jakamisen Gini-indeksin perusteella, löydämme Gini-indeksin eri määritteille ja käyttämällä samaa, löydämme painotetun Gini-indeksin eri jakoille ja käytä sitä, jolla on korkeampi Gini-indeksi, jakaaksesi tietojoukon.

Tärkeät päätöksenteon ehdot tiedon louhinnassa

Tässä on joitain seuraavista tärkeistä datan louhinnan päätöspuun ehdoista:

  • Juurisolmu: Tämä on ensimmäinen solmu, jossa halkaisu tapahtuu.
  • Lehmän solmu: Tämä on solmu, jonka jälkeen ei enää ole haarautumista.
  • Päätössolmu: Edellisestä solmusta datan jakamisen jälkeen muodostettu solmu tunnetaan päätössolmuna.
  • Haara: Puun alaosa, joka sisältää tietoja halkaisun jälkeisistä vaikutuksista päätöksenteko-solmussa.
  • Karsinta: Kun poistetaan päätöksen solmun alisolmuja poistuakseen meluisasta tai meluisasta tiedosta, sitä kutsutaan karsimiseksi. Sen ajatellaan myös olevan vastakohta jakamiseen.

Päätöksen puun soveltaminen tiedon louhintaan

Päätöspuussa on vuokaavion tyyppinen arkkitehtuuri, joka on sisäänrakennettu algoritmin tyypillä. Sillä on pohjimmiltaan "Jos X, niin Y muuta Z" -tyyppinen kuvio jakamisen aikana. Tämän tyyppistä mallia käytetään ymmärtämään ihmisen intuitio ohjelmallisella kentällä. Siksi tätä voidaan laajasti käyttää erilaisissa luokitteluongelmissa.

  • Tätä algoritmia voidaan käyttää laajasti kentällä, jolla tavoitefunktio liittyy suoritetun analyysin suhteen.
  • Kun tarjolla on useita toimintakursseja.
  • Ulkopuolinen analyysi.
  • Ymmärrä koko tietojoukon merkittävä ominaisuusjoukko ja “kaivaa” muutama ominaisuus luettelossa, joka sisältää satojen suurten tietojen ominaisuuksia.
  • Paras lennon valitseminen määränpäähän.
  • Eri tilanteellisiin tilanteisiin perustuva päätöksentekoprosessi.
  • Vaiheanalyysi.
  • Aistien analyysi.

Päätöksen puun edut

Tässä on joitain alla selitetyn päätöksentekopuun etuja:

  • Helppo ymmärtäminen: tapa, jolla päätöksentekopuu esitetään graafisissa muodoissaan, on helppo ymmärtää henkilölle, jolla ei ole analyyttistä taustaa. Varsinkin johtohenkilöille, jotka haluavat nähdä, mitkä piirteet ovat tärkeitä vain yhdellä silmäyksellä päätöksentekopuulle, voidaan tuoda esiin heidän hypoteesinsä.
  • Tietojen etsiminen: Kuten keskusteltiin, merkittävien muuttujien hankkiminen on päätöksenteon puun keskeinen toiminto, ja sen avulla voidaan tutkimuksen aikana selvittää, mitkä muuttujat tarvitsevat erityistä huomiota tiedon louhinta- ja mallivaiheen aikana.
  • Ihmiset puuttuvat hyvin vähän tiedonkeruun valmisteluvaiheeseen, ja tietojen käsittelyyn kuluvan ajan seurauksena puhdistus vähenee.
  • Päätöspuu pystyy käsittelemään sekä luokka- että numeerisia muuttujia ja palvelemaan myös moniluokkaisia ​​luokitteluongelmia.
  • Osana olettamaa päätöksentekopuilla ei ole olettamaa alueellisesta jakautumisesta ja luokittelijarakenteesta.

johtopäätös

Viimeinkin päätökseen saattamisessa päätökseen puut tuovat kokonaan toisen epälineaarisuusluokan ja auttavat ratkaisemaan epälineaarisuuteen liittyviä ongelmia. Tämä algoritmi on paras valinta jäljitellä ihmisten päätöksentekoajattelua ja kuvata sitä matemaattisesti-graafisessa muodossa. Se käyttää ylhäältä alas -lähestymistapaa tulosten määrittämisessä uusista näkymättömistä tiedoista ja noudattaa jakaa ja valloittaa -periaatetta.

Suositellut artikkelit

Tämä on opas tiedonkeruun päätöksentekopuuhun. Tässä keskustellaan päätöksenteon puun algoritmista, tärkeydestä ja soveltamisesta tiedon louhintaan sekä sen eduista. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. Data Science Machine Learning
  2. Tietoanalyysitekniikoiden tyypit
  3. Päätöspuu R: ssä
  4. Mikä on tiedon louhinta?
  5. Opas tietojen analysoinnin eri menetelmiin

Luokka: