Johdatus regressioanalyysiin
Regressioanalyysi on ennustava mallinnusalgoritmi muuttujan tuloksen ennustamiseksi ja muuttujien (riippumattomien muuttujien) tunnistamiseksi, jotka osallistuvat tulosmuuttujaan (kohde- tai riippuvainen muuttuja) tai ovat siitä riippuvaisia. Yksinkertaisesti sanottuna se on tekniikka löytää suhde riippumattomien ja riippuvaisten muuttujien välillä tuloksen tuottamiseksi. Tuloksen käyttäminen ja tulkitseminen on helppoa. Regressiotekniikoita on monen tyyppisiä, joita käytetään laajasti eri aloilla. Jotkut regression esimerkit ovat työntekijän palkan tai yrityksen tulojen ennustaminen vuodessa.
Kuinka regressioanalyysi toimi?
Regressiotekniikoita on monia tyyppejä, joita käytetään ottaen huomioon eri tekijät ja tulokset.
- Lineaarinen regressio
- Logistinen regressio
- Lasso / Ridge-regressio
- Polynominen regressio
Seuraavassa esitetään joitain tärkeistä tilastollisista regressiotesteistä, joita käytetään eri sektoreilla:
1. Lineaarinen regressio
Tätä käytetään, kun tulosmuuttuja on lineaarisesti riippuvainen riippumattomista muuttujista. Sitä käytetään yleensä, kun meillä ei ole valtavaa tietojoukkoa. Se on herkkä myös poikkeaville, joten jos tietojoukossa on poikkeavuuksia kuin sen parempi käsitellä niitä ennen lineaarisen regression soveltamista. On olemassa yhden ja monimuuttujaisen regression tekniikoita. Yksinkertainen lineaarinen regressio on analyysi, kun tulosmuuttuja on lineaarisesti riippuvainen yhdestä riippumattomasta muuttujasta. Yksinkertainen lineaarinen regressio seuraa alla olevan suoran yhtälöä:
Y=mx+c
Missä,
Y = tavoite, riippuvainen tai kriteerimuuttuja
x = riippumaton tai ennustajamuuttuja
m = kaltevuus- tai regressiokerroin
c = vakio
Monimuuttuja Lineaarinen regressio määrittelee tulosmuuttujan ja useamman kuin yhden riippumattoman muuttujan välisen suhteen. Se seuraa suoran alla olevaa yhtälöä, jossa riippuvat muuttujat ovat kaikkien riippumattomien muuttujien lineaarinen yhdistelmä:
Y= m1x1+m2x2+m3x3+…mnan+c
Missä,
Y = tavoite, riippuvainen tai kriteerimuuttuja
x1, x2, x3… xn = Riippumattomat tai ennustavat muuttujat
m1, m2, m3… mn = vastaavien muuttujien kaltevuus- tai regressiokertoimet
c = vakio
Lineaarinen regressio noudattaa vähiten neliön menetelmän periaatetta. Tämän menetelmän mukaan parhaiten sopiva linja valitaan minimoimalla neliövirheen summa. Parhaiten sopiva rivi valitaan silloin, kun havaitun tiedon ja viivan välinen neliövirheen summa on pienin.
On joitain oletuksia, jotka tulisi ottaa huomioon ennen lineaarisen regression soveltamista tietojoukkoon.
- Riippumattomien ja riippuvien muuttujien välillä tulisi olla lineaarinen suhde.
- Riippumattomien muuttujien välillä ei pitäisi olla mitään tai vähän hiukkasia. Monikollineaarisuus määritellään ilmiöksi, jossa riippumattomien muuttujien välillä on korkea korrelaatio. Voimme hoitaa monikollineaarisuuden pudottamalla yhden muuttujan, joka on korreloiva tai käsittelee kahta muuttujaa yhtenä muuttujana.
- Homoskedalisuus: Se määritellään tilaksi, jossa virhetermit tulisi jakaa satunnaisesti rivin läpi regressioanalyysissä. Linjan poikki ei tulisi olla mitään kuviota, jos on olemassa tunnistettu kuvio kuin datan sanotaan olevan heteroskedaattinen.
- Kaikkien muuttujien tulisi olla normaalisti jakautuneita, minkä näemme piirtämällä QQ-kuvaajan. Jos tietoja ei normaalisti jaeta, voimme käyttää mitä tahansa epälineaarisia muunnosmenetelmiä sen käsittelemiseen.
Joten on aina suositeltavaa testata oletukset samalla kun lineaarista regressiota saadaan hyvän tarkkuuden ja oikean tuloksen saamiseksi.
2. Logistinen regressio
Tätä regressiotekniikkaa käytetään, kun kohde- tai tulosmuuttuja on luonteeltaan kategorinen tai binaarinen. Tärkein ero lineaarisen ja logistisen regression välillä on tavoitemuuttuja, lineaarisessa regressiossa sen tulisi olla jatkuva, logistisessa sen tulisi olla kategorinen. Tulosmuuttujalla tulisi olla vain kaksi luokkaa, enintään se. Jotkut esimerkit ovat roskapostisuodattimet sähköposteissa (Roskapostia vai ei), petosten havaitseminen (Petos / Ei petokset) jne. Se toimii todennäköisyysperiaatteella. Se voidaan jakaa kahteen luokkaan asettamalla kynnysarvo.
Esimerkki: Jos luokkia A, B on kaksi ja asetamme kynnysarvoksi 0, 5, 0, 5: n yläpuolella olevaa todennäköisyyttä pidetään yhtenä kategoriana ja alle 0, 5 toisena kategoriana. Logistinen regressio seuraa S-muotoista käyrää. Ennen logistisen regressiomallin rakentamista meidän on jaettava tietojoukko koulutukseen ja testaukseen. Koska tavoitemuuttuja on kategorinen tai binaarinen, meidän on varmistettava, että harjoitusjoukossa on oikea luokkatasapaino. Jos luokan epätasapaino on, sitä voidaan hoitaa käyttämällä erilaisia menetelmiä, kuten alla on mainittu:
- Ylös näytteenotto: Tässä tekniikassa luokka, jossa on vähemmän rivejä, otetaan näytteitä vastaamaan enemmistöluokan rivien lukumäärää.
- Alas näytteenotto: Tässä tekniikassa luokka, jolla on enemmän rivejä, otetaan näytteitä vastaamaan vähemmistöluokan rivien lukumäärää.
Joitakin tärkeitä seikkoja, jotka on tärkeää ymmärtää ennen logistisen regressiomallin soveltamista tietojoukkoihin:
- Kohdemuuttujan tulisi olla luonteeltaan binaarinen. Jos kohdemuuttujassa on enemmän kuin 2 luokkaa kuin se tunnetaan nimellä Multinomial Logistic Regression .
- Riippumattomien muuttujien välillä ei pitäisi olla lainkaan monikoloaarisuutta.
- Se vaatii valtavan näytteen koon toimiakseen.
- Riippumattomien muuttujien ja kertoimien lokin välillä tulisi olla lineaarinen suhde.
Regression edut
Regressioanalyysillä on monia etuja. Sen sijaan, että pohdisimme suolistuntoa ja ennustamme tulosta, voimme käyttää regressioanalyysiä ja näyttää päteviä pisteitä mahdollisille tuloksille.
Jotkut niistä on lueteltu alla:
- Ennakoida minkä tahansa sektorin myyntiä ja tuloja lyhyemmäksi tai pidemmäksi ajaksi.
- Ennustaa minkä tahansa toimialan asiakkaiden vaihtuvuuden määrää ja selvittää sopivat toimenpiteet niiden vähentämiseksi.
- Ymmärtää ja ennustaa varaston varastotasoja.
- Selvittää, onnistuiko uuden tuotteen tuominen markkinoille vai ei.
- Ennakoida onko joku asiakas laiminlyönyt lainan vai ei.
- Ennakoida, ostaako asiakas jonkin tuotteen.
- Petosten tai roskapostin havaitseminen
johtopäätös
On olemassa erilaisia arviointimittareita, jotka otetaan huomioon mallin soveltamisen jälkeen. Vaikka on olemassa oletuksia, jotka on testattava ennen mallin soveltamista, voimme aina muokata muuttujia erilaisilla matemaattisilla menetelmillä ja lisätä mallin suorituskykyä.
Suositellut artikkelit
Tämä on opas regressioanalyysiin. Tässä keskustellaan johdannosta regressioanalyysiin, kuinka regressioanalyysi toimi ja regression eduista. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -
- Lineaarinen regressioanalyysi
- Tietoanalyysityökalut
- Regressiotestityökalut
- Big Data Analytics
- Regressio vs. luokittelu | Tärkeimmät tärkeimmät erot