Johdanto Logistinen regressio R: ssä

Logistinen regressio R: ssä tunnetaan myös nimellä binaariluokitteluongelmat. Niitä käytetään ennustamaan tulos (1 tai 0 joko kyllä ​​/ ei) riippumattomalle muuttujalle. Jotta ymmärrettäisiin logistinen regressio R: ssä, on tärkeää tietää perus lineaarinen regressio, joka toimii jatkuvan tulosmuuttujan kanssa. Tarkemmin sanoen voimme sanoa, että se on lineaarisen regression jatke. Tässä artikkelissa tarkastellaan erilaisia ​​menetelmiä, joita käytetään mallin laskemiseen ja arviointiin. Logistista regressiota käytetään luokitteluongelmien ratkaisemiseen koneoppimisessa.

Kuinka logistinen regressio R: ssä toimii?

Logistinen regressio on tekniikka, jota käytetään tilastojen alalla mittaamaan riippuvaisen ja riippumattoman muuttujan ero logistisen funktion ohjauksella arvioimalla todennäköisyyksien erilaisia ​​esiintymiä. Ne voivat olla joko binomiaalisia (on kyllä ​​tai ei tulosta) tai monikielisiä (kohtuullinen vs. huono erittäin huono). Todennäköisyysarvot ovat välillä 0 ja 1, ja muuttujan tulisi olla positiivinen (<1). Se kohdistuu riippuvaiseen muuttujaan ja siinä on seuraavat vaiheet:

  1. n - määrä kiinteistä tutkimuksista otetulle aineistolle
  2. kahdella tuloksella
  3. todennäköisyyden lopputuloksen tulisi olla toisistaan ​​riippumattomia
  4. Menestymisen ja epäonnistumisten todennäköisyyden on oltava sama jokaisessa kokeessa.

Tässä tarkastellaan esimerkkiä ottamalla ISLR-paketti, joka tarjoaa erilaisia ​​tietojoukkoja koulutusta varten. Mallin sovittamiseksi käytetään tässä yleistä lineaarista mallitoimintoa (glm). Logistisen regression rakentamiseksi on ensisijainen glm-funktio, joka saa yksityiskohdat niistä käyttämällä yhteenvetoa analyysitehtävään.

Työvaiheet:

Logistisen regression työvaiheet seuraavat tiettyjä termielementtejä, kuten

  • Modeling todennäköisyys tai tekemällä todennäköisyysestimointi
  • ennustus
  • Alustava kynnysarvo (korkea tai matala spesifisyys)
  • Sekaannusmatriisi
  • Piirustuspinta-ala käyrän alla (AUC)

esimerkit

Alla on esimerkkejä logistisesta regressiosta R: ssä:

Tietojen lataus:

ISLR-paketin asentaminen.

vaativat (ISLR)

Vaaditaan paketti: ISLR

Tässä artikkelissa aiomme käyttää tietojoukkoa 'Weekly' RStudiossa. Aineisto sisältää tiivistelmätiedot viikkovarastoista vuosina 1990-2010.

vaativat (ISLR)

nimet (OJ)

lähtö:

(1) “Osto” “WeekofPurchase” “StoreID” “PriceCH”

(5) “PriceMM” “DiscCH” “DiscMM” “SpecialCH”

(9) “SpecialMM” “LoyalCH” “SalePriceMM” “SalePriceCH”

(13) “PriceDiff” “Store7” “PctDiscMM” “PctDiscCH”

(17) ”ListPriceDiff” ”STORE”

str (OJ)

Näyttää 1070 havaintoa 18 muuttujasta.

Tietokannassamme on 1070 havaintoa ja 18 erilaista muuttujaa. tässä meillä on erityinen MM Ja erityisellä CH: lla on riippuvainen tulos. Otetaan erityinen MM-ominaisuus, jotta saadaan oikea havainto ja tarkkuus 84%.

table (OJ $ SpecialMM)

0 1

897 173

Seuraava löytää todennäköisyys

897/1070

(1) 0, 8383178

Seuraavassa vaiheessa saadaan parempi näyte Tietojen jakaminen koulutus- ja testausdatajoukkoon on goo

kirjasto (caTools)

set.seed (88)

split = sample.split (OJ $ SpecialMM, SplitRatio = 0, 84)

Kun otetaan huomioon, että qt: llä on harjoitusjoukko ja qs: llä on testisarjanäytteet.

qt = osajoukko (OJ, split == TOSI)

qs = osajoukko (OJ, split == EPÄTOSI)

nrow (qt)

(1) 898

nrow (qs)

(1) 172

Siksi meillä on 898 koulutussarjaa ja 172 testinäytettä.

Seuraavaksi käyttämällä Yhteenveto () -kohtaa, annetaan yksityiskohdat devianssi- ja tehostetaulukoista regressioanalyysiksi.

QualityLog = glm (SpecialMM ~ SalePriceMM + WeekofPurchase, data = qt, family = binomial)

Yhteenveto (QualityLog)

lähtö:

Puhelu:

glm (formula = SpecialMM ~ SalePriceMM + WeekofPurchase, family = binomial,

data = qt)

Deviance-jäännökset:

Min 1Q Median 3Q Max

-1, 2790 -0, 4182 -0, 3687 -0, 2640 2, 4284

kertoimet:

Estimate Std. Virhe z-arvo Pr (> | z |)

(Leikkaus) 2.910774 1, 616328 1, 801 0, 07173.

MyyntiHintaMM -4.538464 0.405808 -11.184 <2e-16 ***

Ostoviikko 0.015546 0.005831 2.666 0.00767 **

-

Nollapoikkeama: 794.01 897 vapausasteella

Jäännöspoikkeama: 636, 13 895 vapausastetta

AIC: 642, 13

Fisherin pisteytyskertojen lukumäärä: 5

Yllä olevasta analyysistä sanotaan, että kertoimistaulukosta saadaan positiiviset arvot WeekofPurchaselle ja niillä on ainakin kaksi tähteä, mikä tarkoittaa, että ne ovat mallin merkittäviä koodeja.

Ennustetekniikka:

Tässä R-paketissa käytetään ennustettavaa juna-toimintoa ja esitetään todennäköisyydet, joita käytämme argumentilla nimeltään tyyppi = vastaus. Katsotaanpa harjoitusjoukkoon sovellettu ennuste (qt). R ennustaa lopputuloksen P: n (y = 1 | X) muodossa rajatodennäköisyydellä 0, 5.

ennustaaTrain = ennustaa (QualityLog, type = ”vastaus”)

Yhteenveto tuottaa mediaanin, keskiarvon ja min, max arvot.

yhteenveto (ennustaaTrain) Suorittaminen antaa

Min. 1. Qu.Median keskiarvo 3. Qu.Max.

0, 02192 0, 03342 0, 07799 0, 16147 0, 25395 0, 89038

tapply (ennustaaTrain, qt $ SpecialMM)

Todellisten todennäköisyyksien keskiarvon laskemiseksi käytetään tapply () -funktiota.

tapply (predictTrain, QT $ SpecialMM, keskiarvo)

0 1

0.1224444 0.3641334

Siksi löydämme yllä olevasta lausunnosta, että todellinen SpecialMM tarkoittaa, että arvo on0, 34 ja tosi huonolle arvolle on 0, 12.

Lasketaan kynnysarvo:

Jos P on> T–, ennuste on huono Erityinen MM

jos P on

Luokitusmatriisi:

taulukko (qt $ SpecialMM, ennustaaTrain> 0, 5)

EPÄTOSI TOSI

0 746 7

1 105 40

Herkkyyden ja spesifisyyden laskemiseksi

40/145

(1) 0, 2758621

746/753

(1) 0, 9907039

Testisarja Ennuste

ennustaaTest = ennustaa (QualityLog, tyyppi = "vastaus", newdata = qs)

taulukko (qs $ SpecialMM, ennustetesti> = 0, 3)

EPÄTOSI TOSI

0 130 14

1 10 18

taulukko (qs $ SpecialMM, ennustetesti> = 0, 5)

EPÄTOSI TOSI

0 140 4

1 18 10

Laskemisen tarkkuus

150/172

(1) 0, 872093

Tapauksia on 172, joista 144 on hyvää ja 28 huonoa.

ROC-käyrän piirtäminen:

Tämä on viimeinen vaihe piirtämällä ROC-käyrä suorituskykymittauksia varten. Hyvän AUC-arvon tulisi olla lähempänä arvoa 1 eikä 0, 5. Tarkistetaan todennäköisyyksillä 0, 5, 0, 7, 0, 2 ennakoida kuinka kynnysarvo nousee ja laskee. Se tehdään piirtämällä kynnysarvot samanaikaisesti ROC-käyrään. Hyvä valinta on poiminta ottaen huomioon korkeampi herkkyys.

Logistisen regression tekniikat

Katsotaanpa logistiikan toteutusta R: llä, koska se tekee mallin sopivuudesta erittäin helpon. Tekniikoita on kahta tyyppiä:

  • Multinomial logistinen regressio
  • Tavallinen logistinen regressio

Entinen toimii vastemuuttujilla, kun niillä on enemmän kuin tai yhtä kuin kaksi luokkaa. myöhemmin toimii, kun tilaus on merkittävä.

johtopäätös

Siksi olemme oppineet regression takana olevan logiikan samalla kun olemme toteuttaneet logistisen regression tietylle R: n tietoaineistolle. Binominen tai binaarinen regressio mittaa binaarivasteiden ja ennustajamuuttujien kategoriset arvot. Heillä on tärkeä rooli analyysissä, jossa alan asiantuntijat odottavat tietävänsä lineaarisen ja logistisen regression. Heillä on omat haasteensa, ja käytännön esimerkissä olemme tehneet vaiheet tietojen puhdistamiseen, esikäsittelyyn. Kaiken kaikkiaan olemme nähneet kuinka logistinen regressio ratkaisee kategorisen tuloksen ongelman yksinkertaisella ja helpoalla tavalla.

Suositellut artikkelit

Tämä on ollut opas logistiseen regressioon R: ssä. Tässä keskustellaan työskentelystä, erilaisista tekniikoista ja laajasta selityksestä erilaisista menetelmistä, joita käytetään logistisessa regressiossa R: ssä. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. Koneoppiminen
  2. R vs Python
  3. Python-kielitoiminnot
  4. Onko Python skriptikieli
  5. Binomijakauma R: ssä Syntaksi
  6. Regressio vs. luokittelu

Luokka: