Johdatus koneoppimisessa käytettävään päätöksentekopuuhun

Koneoppimispäätöksen puulla on laaja kenttä nykymaailmassa. ML: ssä on paljon algoritmeja, joita hyödynnetään päivittäisessä elämässämme. Yksi tärkeistä algoritmeista on päätöksentekopuu, jota käytetään luokitteluun ja myös ratkaisu regressio-ongelmiin. Koska se on ennustava malli, päätöksentekopuu-analyysi suoritetaan algoritmisella lähestymistavalla, jossa tietojoukko jaetaan osajoukkoihin olosuhteiden mukaan. Nimi itsessään sanoo, että se on puumainen malli if-then-else-lauseiden muodossa. Mitä syvempi puu on ja mitä enemmän solmuja on, sitä parempi on malli.

Tyypit päätöksentekopuusta koneoppimisessa

Päätöspuu on puumainen kuvaaja, jossa lajittelu alkaa juurisolmusta lehdesolmuun, kunnes tavoite saavutetaan. Se on suosituin päätöksentekoon ja luokitteluun, joka perustuu valvottuihin algoritmeihin. Se rakennetaan rekursiivisella osioinnilla, jossa kukin solmu toimii testitapauksena joillekin määritteille ja kukin solmusta peräisin oleva reuna on mahdollinen vastaus testitapauksessa. Sekä juuri- että lehtisolmut ovat algoritmin kaksi kokonaisuutta.

Ymmärretään pienen esimerkin avulla seuraavasti:

Tässä juurisolmu on se, oletko alle 40 vai et. Jos on, syöt sitten pikaruokaa? Jos kyllä, niin olet kelvoton tai muuten olet kelvollinen. Ja jos olet yli 40, niin teet liikuntaa? Jos niin, niin olet sopiva tai muuten olet kelvoton. Tämä oli pohjimmiltaan binaariluokitus.

Päätöspuita on kahta tyyppiä:

  1. Luokittelupuut: Yllä oleva esimerkki on luokkaperusteinen luokittelupuu.
  2. Regressiopuut : Tämän tyyppisessä algoritmissa päätös tai tulos on jatkuva. Sillä on yksi numeerinen lähtö, jossa on enemmän tuloja tai ennustajia.

Päätöspuussa tyypillinen haaste on tunnistaa ominaisuus jokaisessa solmussa. Prosessia kutsutaan attribuutin valintaksi, ja siinä on joitain toimenpiteitä ominaisuuden tunnistamiseksi.

a. Tietojen saanti (IG)

Tietojen lisäys mitaa kuinka paljon tietoa yksittäinen ominaisuus antaa luokasta. Se toimii pääavaimena päätöksentekopuun rakentamisessa. Attribuutti, jolla on suurin tiedontuotto, jakaa ensin. Joten päätöksentekopuu maksimoi aina tiedon saannin. Kun osioitamme esiintymät solmuun pienempiin osajoukkoihin, entropia muuttuu.

Entropia: Se on epävarmuuden tai epäpuhtauden mitta satunnaismuuttujassa. Entropia päättää, kuinka päätöksentekopuu jakaa tiedot osajoukkoihin.

Tietojen saamisen ja entroopian yhtälö ovat seuraavat:

Tietojen tuotto = entropia (vanhempi) - (painotettu keskiarvo * entropia (lapset))

Entropia: ∑p (X) log p (X)

P (X) tässä on murto-osa esimerkkejä tietystä luokasta.

b. Gini-hakemisto

Gini-indeksi on mittari, joka päättää, kuinka usein satunnaisesti valittu elementti tunnistetaan väärin. Siinä todetaan selvästi, että ensisijainen ominaisuus on matalalla Gini-indeksillä.

Gini-hakemisto: 1-∑ p (X) 2

Jaa luominen

  1. Jaon luomiseksi ensin on laskettava Gini-pistemäärä.
  2. Tiedot jaetaan käyttämällä riviluetteloa, joissa on attribuutin indeksi ja attribuutin jaettu arvo. Kun oikea ja vasen tietojoukko on löydetty, saamme jakoarvon Gini-pistemäärän perusteella ensimmäisestä osasta. Nyt jakoarvo on päättäjä, missä attribuutti sijaitsee.
  3. Seuraava osa on kaikkien halkeamien arviointi. Paras mahdollinen arvo lasketaan arvioimalla jaon kustannukset. Parasta jakoa käytetään päätöksentekopuun solmuna.

Puun rakentaminen - päätöksentekopuu puuoppimisessa

Päätöspuun rakentamiseen on kaksi vaihetta.

1. Päätelaitteiden luominen

Päätelaitetta luotaessa tärkeintä on huomata, onko meidän lopetettava puiden kasvu tai jatkettava edelleen. Seuraavia tapoja voidaan käyttää tähän:

  • Puun suurin syvyys: Kun puu saavuttaa suurimman määrän solmuja, suorittaminen pysähtyy siihen.
  • Vähimmäissolmurekisterit: Se voidaan määritellä minimikuvioiksi, joita solmu vaatii. Sitten voimme lopettaa terminaalisolmujen lisäämisen heti, kun saamme nämä vähimmäissolmurekisterit.

2. Rekursiivinen jakaminen

Kun solmu on luotu, voimme luoda lapsisolmun rekursiivisesti jakamalla tietojoukko ja soittamalla sama toiminto useita kertoja.

ennustus

Kun puu on rakennettu, ennustus tehdään rekursiivisella toiminnolla. Samaa ennusteprosessia seurataan jälleen vasemman tai oikean lapsisolmun kanssa ja niin edelleen.

Päätöksen puun edut ja haitat

Alla annetaan joitain etuja ja haittoja:

edut

Päätöspuulla on joitain etuja koneoppimisessa seuraavasti:

  • Kattava: Se ottaa huomioon päätöksen mahdolliset tulokset ja jäljittää kunkin solmun lopputulokseen vastaavasti.
  • Erityinen: Päätöspuut antavat erityisen arvon jokaiselle ongelmalle, päätökselle ja lopputulokselle. Se vähentää epävarmuutta ja epäselvyyttä ja lisää myös selkeyttä.
  • Yksinkertaisuus: Päätöspuu on yksi helpommista ja luotettavimmista algoritmeista, koska siinä ei ole monimutkaisia ​​kaavoja tai tietorakenteita. Laskemiseen tarvitaan vain yksinkertaisia ​​tilastotietoja ja matematiikkaa.
  • Monipuolinen: Päätöspuut voidaan rakentaa manuaalisesti matematiikkaa käyttäen ja käyttää myös muiden tietokoneohjelmien kanssa.

haitat

Päätöspuulla on joitain haittoja koneoppimisessa seuraavasti:

  • Päätöspuut eivät ole yhtä sopivia arviointiin ja taloudellisiin tehtäviin, kun tarvitsemme asianmukaista arvoa / arvoja.
  • Se on virhealttiluokittelualgoritmi verrattuna muihin laskennallisiin algoritmeihin.
  • Se on laskennallisesti kallis. Kussakin solmussa ehdokasjako on lajiteltava ennen parhaan selvittämistä. On myös muita vaihtoehtoja, joita monet liiketoimintayksiköt seuraavat taloudellisiin tehtäviin, koska päätöksentekopuu on liian kallis arvioimiseen.
  • Jatkuvien muuttujien kanssa työskennellessä päätöksentekopuu ei ole paras ratkaisu, koska sillä on taipumus menettää tietoja muuttujia luokiteltaessa.
  • Se on joskus epävakaa, koska pienet variaatiot tietojoukossa voivat johtaa uuden puun muodostumiseen.

Johtopäätös - päätöksentekopuu koneoppimisessa

Yhtenä tärkeimmistä ja valvotuimmista algoritmeista päätöksentekopuu on tärkeä rooli päätöksen analysoinnissa tosielämässä. Ennustavana mallina sitä käytetään monilla alueilla hajautetussa lähestymistavassa, joka auttaa tunnistamaan eri olosuhteisiin perustuvat ratkaisut joko luokittelulla tai regressiomenetelmällä.

Suositellut artikkelit

Tämä on opas päätöksentekopuuhun koneoppimisessa. Tässä keskustellaan johdannosta, päätöksentekopuun tyypit koneoppimisessa, Split-luonti ja Puun rakentaminen. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -

  1. Python-tietotyypit
  2. Tableau-tietojoukot
  3. Cassandran datan mallintaminen
  4. Päätöstaulukon testaus
  5. Koneoppimisen elinkaaren kahdeksan tärkeintä vaihetta

Luokka: