Päätöksen puun algoritmi - Entropian selitys ja rooli päätöksentekopuussa

Sisällysluettelo:

Anonim

Johdanto päätöksentekopuen algoritmiin

Kun meillä on ratkaistava ongelma, joka on joko luokittelu- tai regressio-ongelma, päätöspuun algoritmi on yksi suosituimmista algoritmeista, jota käytetään luokittelu- ja regressiomallien rakentamiseen. Ne kuuluvat ohjatun oppimisen luokkaan eli tietoihin, jotka on merkitty.

Mikä on päätöksenteon puun algoritmi?

Päätöksen puun algoritmi on valvottu koneoppimisalgoritmi, jossa tietoja jaetaan jatkuvasti jokaisella rivillä tiettyjen sääntöjen perusteella, kunnes lopullinen tulos syntyy. Otetaan esimerkiksi esimerkki siitä, että avaat ostoskeskuksen ja tietysti haluaisit sen kasvavan liiketoiminnassa ajan myötä. Joten tässä asiassa tarvitset palauttavia asiakkaita plus uusia asiakkaita omassa kauppakeskuksessasi. Tätä varten sinun tulisi laatia erilaisia ​​liiketoiminta- ja markkinointistrategioita, kuten sähköpostien lähettäminen potentiaalisille asiakkaille; luoda tarjouksia ja tarjouksia, jotka on suunnattu uusille asiakkaille jne. Mutta miten tiedämme kuka on potentiaalinen asiakas? Toisin sanoen miten luokittelemme asiakasryhmän? Kuten jotkut asiakkaat käyvät kerran viikossa ja toiset haluavat käydä kerran tai kahdesti kuukaudessa, tai jotkut vierailevat neljänneksellä. Joten päätöspuut ovat yksi sellainen luokittelualgoritmi, joka luokittelee tulokset ryhmiin, kunnes enää samankaltaisuutta ei ole jäljellä.

Tällä tavoin päätöksentekopuu laskee puurakenteisessa muodossa. Päätöksen puun pääkomponentit ovat:

  • Päätössolmut, joissa tiedot jaetaan tai sanotaan, se on paikka määritteelle.
  • Päätöksen linkki, joka edustaa sääntöä.
  • Päätöslehdet, jotka ovat lopputulos.

Päätöksen puun algoritmin käyttäminen

Päätöksen puun työskentelyyn liittyy monia vaiheita:

1. Halkaisu - Se on tietojen jakaminen osajoukkoihin. Halkaisu voidaan tehdä useista tekijöistä, kuten alla on esitetty, ts. Sukupuolen, korkeuden tai luokan perusteella.

2. Leikkaaminen - se on prosessi, jolla lyhennetään päätöksenteon puun oksia, rajoittaen siten puun syvyyttä

Leikkaaminen on myös kahden tyyppistä:

  • Pre-karsiminen - Tässä lopetamme puun kasvattamisen, kun emme löydä tilastollisesti merkitsevää assosiaatiota attribuuttien ja luokan välillä missään tietyssä solmussa.
  • Leikkaaminen jälkikäteen - Jotta karsinta voidaan postittaa, meidän on validoitava testisarjan mallin suorituskyky ja leikattava sitten oksat, jotka ovat seurausta harjoitussarjan ylenmääräisestä melusta.

3. Puun valinta - Kolmas vaihe on prosessi, jolla löydetään pienin, dataan sopiva puu.

Esimerkkejä ja esimerkkejä päätöksentekopuun rakentamisesta

Nyt, kun olemme oppineet päätöksentekopuun periaatteet. Ymmärretään ja havainnollistetaan tätä esimerkin avulla.

Oletetaan, että haluat pelata krikettiä tietyllä päivänä (esimerkiksi lauantaina). Mitkä ovat mukana olevia tekijöitä, jotka päättävät näytelmän tulevan vai ei?

On selvää, että tärkein tekijä on ilmasto, millään muulla tekijällä ei ole niin paljon todennäköisyyttä kuin paljon ilmastolla on pelin keskeyttämiseen.

Olemme keränneet viimeisen 10 päivän tiedot, jotka esitetään alla:

PäiväSääLämpötilaKosteusTuuliPelata?
1PilvinenKuumaKorkeaHeikkoJoo
2AurinkoinenKuumaKorkeaHeikkoEi
3AurinkoinenLievänormaaliVahvaJoo
4SateinenLieväKorkeaVahvaEi
5PilvinenLieväKorkeaVahvaJoo
6SateinenViileänormaaliVahvaEi
7SateinenLieväKorkeaHeikkoJoo
8AurinkoinenKuumaKorkeaVahvaEi
9PilvinenKuumanormaaliHeikkoJoo
10SateinenLieväKorkeaVahvaEi

Rakennetaan nyt päätöspuumme saamiemme tietojen perusteella. Joten olemme jakaneet päätöksentekopuu kahteen tasoon, ensimmäinen perustuu attribuuttiin “Weather” ja toinen rivi perustuu “kosteuteen” ja “tuuleen”. Alla olevat kuvat kuvaavat oppitun päätöksenteon puun.

Voimme myös asettaa joitain kynnysarvoja, jos ominaisuudet ovat jatkuvia.

Mikä on entropia päätöksentekopuran algoritmissa?

Yksinkertaisin sanoin, entropia on mitta siitä, kuinka epäjärjestyneet tietosi ovat. Vaikka olet ehkä kuullut tämän termin matematiikan tai fysiikan tunteistasi, se on sama täällä.

Entropiaa käytetään päätöksentekopuussa syynä siihen, että päätöksentekopuun perimmäisenä tavoitteena on ryhmitellä samanlaiset tietoryhmät samoihin luokkiin, ts. Tietojen siivoamiseen.

Katsotaan alla olevaa kuvaa, jossa meillä on alkuperäinen tietojoukko ja joudumme soveltamaan päätöspuun algoritmia samanlaisten datapisteiden ryhmittelemiseksi yhteen luokkaan.

Päätöksenjaon jälkeen, kuten voimme selvästi nähdä, suurin osa punaisista ympyröistä kuuluu yhden luokan alaan, kun taas suurin osa sinisistä risteistä kuuluu toisen luokan alle. Siksi päätettiin luokitella ominaisuudet, jotka voisivat perustua useisiin tekijöihin.

Yritämme nyt tehdä matematiikkaa täällä:

Sanotaan, että meillä on alkion N sarjoja ja nämä tuotteet jakautuvat kahteen luokkaan, ja nyt ryhmitellämme tiedot tarrojen perusteella, otamme käyttöön suhde:

Sarjamme entropia annetaan seuraavalla yhtälöllä:

Katsokaamme annetun yhtälön kuvaaja:

Kuvan yläpuolella (p = 0, 5 ja q = 0, 5)

edut

1. Päätöspuu on helppo ymmärtää ja kun se on ymmärretty, voimme rakentaa sen.

2. Pystymme toteuttamaan päätöksentekopuun sekä numeeriseen että kategoriseen tietoon.

3. Päätöspuun on osoitettu olevan vankka malli, jolla on lupaavia tuloksia.

4. Ne ovat myös aikatehokkaita suurilla tiedoilla.

5. Tietojen kouluttaminen vaatii vähemmän vaivaa.

haitat

1. Epävakaus - Vain jos tiedot ovat tarkkoja ja tarkkoja, päätöksentekopuu antaa lupaavia tuloksia. Vaikka syöttötiedoissa tapahtuu pieni muutos, se voi aiheuttaa puussa suuria muutoksia.

2. Monimutkaisuus - Jos tietojoukko on valtava monilla sarakkeilla ja riveillä, on hyvin monimutkainen tehtävä suunnitella päätöksentekopuu, jossa on monia haaraja.

3. Kustannukset - Joskus kustannukset ovat myös tärkeä tekijä, koska kun vaaditaan monimutkaisen päätöksenteon rakentaminen, se vaatii edistyneitä tietoja kvantitatiivisessa ja tilastollisessa analyysissä.

johtopäätös

Tässä artikkelissa opimme päätöksentekopuen algoritmista ja sen rakentamisesta. Näimme myös sen suuren roolin, joka Entropialla on päätöksentekopuun algoritmissa, ja viimeinkin näimme päätöksenteon puun edut ja haitat.

Suositellut artikkelit

Tämä on opas päätöksentekopuen algoritmiin. Tässä keskustelimme Entropian, työskentelyn, etujen ja haittojen roolista. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -

  1. Tärkeitä tiedon louhintamenetelmiä
  2. Mikä on Web-sovellus?
  3. Opas mihin datatiede on?
  4. Tietoanalyytikon haastattelukysymykset
  5. Päätöksen puun soveltaminen tiedon louhintaan