Poisson-regressio R: ssä Poisson-regression toteuttaminen

Sisällysluettelo:

Anonim

Johdatus Poisson-regressioon R: ssä

Poisson-regressio on tyyppinen regressio, joka on samanlainen kuin useita lineaarisia regressioita, paitsi että vaste tai riippuvainen muuttuja (Y) on laskentamuuttuja. Riippuvainen muuttuja seuraa Poisson-jakaumaa. Ennustaja tai riippumattomat muuttujat voivat olla luonteeltaan jatkuvia tai kategorisia. Tavallaan se on samanlainen kuin logistinen regressio, jolla on myös erillinen vastemuuttuja. Poisson-jakauman ja sen matemaattisen muodon ennakko ymmärtäminen on erittäin tärkeää, jotta sitä voidaan hyödyntää ennusteessa. R: ssä Poisson-regressio voidaan toteuttaa erittäin tehokkaalla tavalla. R tarjoaa kattavan joukon toimintoja sen toteuttamiseen.

Poisson-regression toteuttaminen

Nyt ymmärrämme mallin soveltamista. Seuraava jakso antaa askel askeleelta saman menettelyn. Tätä esittelyä varten harkitsemme “kaukaista” tietojoukkoa “kaukainen” -paketista. Se koskee Galapagossaarten lajien monimuotoisuutta. Aineistossa on kaikkiaan 7 muuttujaa. Käytämme Poisson-regressiota määritelläksesi kasvilajien (laji) lukumäärän suhteen tietojoukon muihin muuttujiin.

1. Lataa ensin “kaukainen” paketti. Jos pakettia ei ole, lataa se käyttämällä install.packages () -toimintoa.

2. Kun paketti on ladattu, lataa “gala” -tietosarja R: ään käyttämällä data () -toimintoa kuten alla.

3. Ladatut tiedot tulee visualisoida muuttujan tutkimiseksi ja tarkistaakseen, onko eroja. Voimme visualisoida joko koko datan tai vain muutaman ensimmäisen rivin käyttämällä head () -toimintoa alla olevan kuvakaappauksen mukaisesti.

4. Saadaksesi enemmän tietoa aineistosta, voimme käyttää ohjetoimintoa R: ssä alla. Se tuottaa R-asiakirjat alla olevan kuvakaappauksen jälkeisessä kuvakaappauksessa esitetyllä tavalla.

5. Jos tutkimme tietojoukkoa edellisissä vaiheissa mainitulla tavalla, voimme havaita, että laji on vastausmuuttuja. Tutkimme nyt perusyhteenvetoa ennustajamuuttujista.

Huomaa, kuten edellä voidaan nähdä, olemme poissulkeneet muuttujan Laji. Yhteenveto-toiminto antaa meille perustiedot. Tarkastellaan vain kunkin näiden muuttujien mediaaniarvoja, ja voimme havaita, että ensimmäisen puoliskon ja toisen puoliskon välillä on valtava ero arvoalueella, esim. Aluemuuttujan mediaaniarvo on 2, 59, mutta suurin arvo on 4669, 320.

6. Nyt kun perusanalyysi on valmis, luomme lajeille histogrammin tarkistaaksesi, seuraako muuttuja Poisson-jakaumaa. Tätä kuvataan alla.

Yllä oleva koodi generoi histogrammin Laji-muuttujalle yhdessä sen päälle asetetun tiheyskäyrän kanssa.

Yllä oleva visualisointi osoittaa, että laji noudattaa Poisson-jakaumaa, koska tiedot ovat vinossa. Voimme luoda myös laatikkotieteen saadaksesi enemmän tietoa jakelumallista, kuten alla on esitetty.

7. Suoritettuaan alustavan analyysin käytämme nyt Poisson-regressiota alla esitetyllä tavalla

Yllä olevan analyysin perusteella havaitsemme, että muuttujat Endemia, Alue ja Lähin ovat merkittäviä ja vain niiden sisällyttäminen riittää oikean Poisson-regressiomallin rakentamiseen.

8. Rakennamme muokatun Poisson-regressiomallin ottaen huomioon vain kolme muuttujaa eli. Endemia, alue ja lähin. Katsotaan mitä tuloksia saamme.

Lähtö tuottaa poikkeamia, regressioparametreja ja vakiovirheitä. Voimme nähdä, että jokainen parametreista on merkitsevä p <0, 05-tasolla.

9. Seuraava vaihe on malliparametrien tulkinta. Mallikertoimet voidaan saada joko tutkimalla kertoimia yllä olevassa ulostulossa tai käyttämällä coef () -toimintoa.

Poisson-regressiossa riippuvainen muuttuja mallinnetaan ehdollisen keskiarvon logaritmiksi (l). Endemicsin regressioparametri 0, 0355 osoittaa, että muuttujan yhden yksikön lisäys liittyy lajien log-keskimääräisen lukumäärän lisääntymiseen 0, 04, pitäen muita muuttujia vakiona. Leikkaus on lajien keskimääräinen lukumäärä, kun kukin ennustaja on nolla.

10. On kuitenkin paljon helpompaa tulkita regressiokertoimet riippuvaisen muuttujan alkuperäisessä mittakaavassa (lajien lukumäärä lajien lokimäärän sijasta). Kertoimien eksponentraatio mahdollistaa helpon tulkinnan. Tämä tehdään seuraavasti.

Edellä esitetyistä havainnoista voidaan sanoa, että pinta-alayksikön lisäys moninkertaistaa odotettavissa olevan lajien määrän 0, 9999: llä ja endeemisten lajien lukumäärän yksikkökasvu, jota edustaa Endemics, kertoo lajien lukumäärän 1, 0361. Poisson-regression tärkein näkökohta on, että eksponensoituneilla parametreilla on pikemminkin kerrannaisvaikutus kuin additiivinen vaikutus vastemuuttujaan.

11. Edellä olevien vaiheiden avulla saimme Poisson-regressiomallin kasvilajien määrän ennustamiseen Galapagossaarilla. On kuitenkin erittäin tärkeää tarkistaa liiallinen leviäminen. Poisson-regressiossa varianssi ja keinot ovat yhtä suuret.

Ylidispersio tapahtuu, kun vastemuuttujan havaittu varianssi on suurempi kuin mitä Poisson-jakauma voisi ennustaa. Ylijakauman analysoinnista tulee tärkeätä, koska se on yhteistä laskutietojen kanssa, ja se voi vaikuttaa negatiivisesti lopputuloksiin. R: ssä ylidispersio voidaan analysoida käyttämällä ”qcc” -pakettia. Analyysi on kuvattu alla.

Yllä oleva merkitsevä testi osoittaa, että p-arvo on alle 0, 05, mikä viittaa voimakkaasti ylidispersion esiintymiseen. Yritämme sovittaa mallin glm () -toiminnolla korvaamalla family = “Poisson” luvulla family = “quasipoisson”. Tätä kuvataan alla.

Edellä mainittua tulosta tarkasteltaessa voidaan nähdä, että kvasi-Poisson-lähestymistavan parametriarvot ovat identtisiä Poisson-lähestymistavan tuottamien arvioiden kanssa, vaikkakin standardivirheet ovat erilaisia ​​molemmissa lähestymistavoissa. Lisäksi tässä tapauksessa pinta-alan p-arvo on suurempi kuin 0, 05, mikä johtuu suuremmasta standardivirheestä.

Poisson-regression merkitys

  • Poisson-regressio R: ssä on hyödyllinen diskreetin / laskentamuuttujan oikeissa ennusteissa.
  • Se auttaa meitä tunnistamaan selittävät muuttujat, joilla on tilastollisesti merkittävä vaikutus vastemuuttujaan.
  • Poisson-regressio R: ssä sopii parhaiten tapahtumille, jotka ovat luonteeltaan harvinaisia, koska niillä on taipumus noudattaa Poisson-jakaumaa verrattuna yleisiin tapahtumiin, jotka yleensä seuraavat normaalia jakaumaa.
  • Se soveltuu käytettäväksi tapauksissa, joissa vastemuuttuja on pieni kokonaisluku.
  • Sillä on laajoja sovelluksia, koska erillisten muuttujien ennustaminen on ratkaisevan tärkeää monissa tilanteissa. Lääketieteessä sitä voidaan käyttää ennustamaan lääkkeen vaikutuksia terveyteen. Sitä käytetään voimakkaasti selviytymisanalyysissä, kuten biologisten organismien kuolema, mekaanisten järjestelmien rikkoutuminen jne.

johtopäätös

Poisson-regressio perustuu Poisson-jakauman käsitteeseen. Se on toinen regressiotekniikoiden sarjaan kuuluva luokka, joka yhdistää sekä lineaarisen että logistisen regression ominaisuudet. Toisin kuin logistinen regressio, joka tuottaa vain binaarilähdön, sitä käytetään kuitenkin erillisen muuttujan ennustamiseen.

Suositellut artikkelit

Tämä on opas Poisson-regressioon vuonna R. Tässä keskustellaan johdannosta Poisson-regression toteuttamisesta ja Poisson-regression merkityksestä. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -

  1. GLM R: ssä
  2. Satunnaislukugeneraattori R: ssä
  3. Regressiokaava
  4. Logistinen regressio R: ssä
  5. Lineaarinen regressio vs. logistinen regressio | Suurimmat erot