Mikä on lineaarinen regressio R: ssä?
Lineaarinen regressio on suosituin ja laajimmin käytetty algoritmi tilastojen ja koneoppimisen alalla. Lineaarinen regressio on mallinnustekniikka tulo- ja lähtömuuttujien välisen suhteen ymmärtämiseksi. Tässä muuttujien on oltava numeerisia. Lineaarinen regressio johtuu siitä, että lähtömuuttuja on sisääntulomuuttujien lineaarinen yhdistelmä. Lähtöä edustaa yleensä “y”, kun taas tuloa edustaa “x”.
Lineaarinen regressio R: ssä voidaan luokitella kahteen tapaan
-
Si mple Lineaarinen regressio
Tämä on regressio, jossa lähtömuuttuja on yksittäisen tulomuuttujan funktio. Yksinkertaisen lineaarisen regression esitys:
y = c0 + c1 * x1
-
Useita lineaarisia regressioita
Tämä on regressio, jossa lähtömuuttuja on monisyöttömuuttujan funktio.
y = c0 + c1 * x1 + c2 * x2
Molemmissa edellä mainituissa tapauksissa c0, c1, c2 ovat kertoimet, jotka edustavat regressiopainoja.
Lineaarinen regressio R: ssä
R on erittäin tehokas tilastollinen työkalu. Joten katsotaan kuinka lineaarinen regressio voidaan suorittaa R: ssä ja kuinka sen lähtöarvot voidaan tulkita.
Valmistellaan tietojoukko suorittaaksesi ja ymmärtääksesi lineaarisen regression perusteellisesti nyt.
Nyt meillä on tietojoukko, jossa ”activ_score” ja “year_of_Exp” ovat riippumattomia muuttujia. ”Palkka_in_lakhs” on tulosmuuttuja.
Viitaten yllä olevaan tietojoukkoon ongelma, jota haluamme käsitellä tässä lineaarisen regression avulla, on:
Arvio työntekijän palkasta hänen vuoden kokemuksensa ja tyytyväisyyspisteensä perusteella yrityksessä.
Lineaarisen regression R-koodi:
model <- lm(salary_in_Lakhs ~ satisfaction_score + year_of_Exp, data = employee.data)
summary(model)
Yllä olevan koodin lähtö on:
Regression kaava muuttuu
Y = 12, 29–1, 19 * tyytyväisyys_kohteet + 2, 08 × 2 * vuosi_Exp
Siinä tapauksessa yhdellä on useita tuloja malliin.
Sitten R-koodi voi olla:
malli <- lm (palkka_in_Lakit ~., data = työntekijä.data)
Jos joku kuitenkin haluaa valita muuttujan useista syöttömuuttujista, käytettävissä on useita tekniikoita, kuten ”Takaperusteinen eliminointi”, “Eteenpäinvalinta” jne., Myös niin.
Lineaarisen regression tulkinta R: ssä
Alla on joitain tuloksia r: n lineaarisesta regressiosta, jotka ovat seuraavat:
1.Residuals
Tämä viittaa eroon todellisen vasteen ja mallin ennustetun vasteen välillä. Joten jokaisessa pisteessä on yksi todellinen vastaus ja yksi ennustettu vastaus. Siksi jäännöksiä on niin paljon kuin havaintoja. Tapauksessamme meillä on neljä havaintoa, siis neljä jäännöstä.
2.Coefficients
Menemällä eteenpäin, löydät kertoimet -osan, joka kuvaa sieppausta ja kaltevuutta. Jos halutaan ennustaa työntekijän palkka hänen kokemuksensa ja tyytyväisyyspisteensä perusteella, on kehitettävä kaltevuuteen ja sieppaukseen perustuva malli. Tämä kaava auttaa sinua ennustamaan palkan. Kuuntelu ja kaltevuus auttavat analyytikkoa keksimään parhaan mallin, joka sopii datapisteisiin osuvasti.
Kaltevuus: kuvaa viivan jyrkkyyttä.
Sieppaus: Paikka, jossa linja leikkaa akselin.
Ymmärretään kuinka kaavanmuodostus tapahtuu kaltevuuden ja sieppauksen perusteella.
Sano, että leikkauspiste on 3 ja kaltevuus 5.
Joten, kaava on y = 3 + 5x . Tämä tarkoittaa, että jos x kasvaa yksiköllä, y kasvaa 5: llä.
a.Ceefficient - Arvio
Tässä sieppaus tarkoittaa lähtömuuttujan keskiarvoa, kun kaikista tuloista tulee nolla. Joten, tapauksessamme, palkka lakhissa on 12, 29 lakkaa keskimäärin ottaen huomioon tyytyväisyyspiste ja kokemus on nolla. Tässä kaltevuus edustaa muutosta lähtömuuttujassa yksikkömuutoksen kanssa tulomuuttujassa.
b.Ceefficient - Standard Error
Vakiovirhe on virheen arvio, jonka voimme saada laskettaessa vastausmuuttujamme todellisen ja ennustetun arvon välistä eroa. Tämä puolestaan kertoo luotettavuudesta toisiinsa liittyvien tulo- ja lähtömuuttujien suhteen.
c.Kertoimen arvo - t
Tämä arvo antaa luottamuksen hylätä nollahypoteesi. Mitä suurempi arvo on nollasta poissa, sitä suurempi on luottamus hylätä nollahypoteesi ja vahvistaa ulostulon ja tulomuuttujan välinen suhde. Meidän tapauksessamme arvo on myös nollasta nolla.
d.Kertoite - Pr (> t)
Tämä lyhenne kuvaa periaatteessa p-arvoa. Mitä lähempänä se on nolla, sitä helpommin voimme hylätä nollahypoteesin. Rivillä, jonka näemme tapauksessamme, tämä arvo on lähellä nollaa, voidaan sanoa, että palkkapaketin, tyytyväisyyspisteen ja vuoden kokemusten välillä on yhteys.
Jäännösstandardivirhe
Tämä kuvaa virheen vastemuuttujan ennusteessa. Mitä alhaisempi se on, sitä korkeampi malli on.
Useita R-neliöitä, mukautettu R-neliöitä
R-neliö on erittäin tärkeä tilastollinen mitta ymmärrettäessä, kuinka lähellä tiedot ovat sopeutuneet malliin. Näin ollen tapauksessamme kuinka hyvin lineaarisen regression malli edustaa tietojoukkoa.
R-neliön arvo on aina välillä 0 ja 1. Kaava on:
Mitä lähempänä arvoa 1, sitä paremmin malli kuvaa tietojoukkoja ja niiden varianssia.
Kuitenkin, kun useampi kuin yksi tulomuuttuja tulee kuvaan, säädelty R-neliöarvo on edullinen.
F-tilasto
Se on vahva toimenpide määrittää syöttö- ja vastemuuttujan välinen suhde. Mitä suurempi arvo on kuin 1, sitä suurempi on luottamus tulo- ja lähtömuuttujan väliseen suhteeseen.
Meidän tapauksessamme sen ”937.5”, joka on suhteellisen suurempi ottaen huomioon datan koko. Siksi nollahypoteesin hylkääminen on helpompaa.
Jos joku haluaa nähdä luottamusvälin mallin kertoimille, tämä on tapa tehdä se:
Regression visualisointi
R-koodi:
tontti (palkka_in_Lakit ~ tyytyväisyys_tulos + vuosi_Exp, data = työntekijä.data)
abline (malli)
Aina on parempi kerätä enemmän ja enemmän pisteitä, ennen kuin ne sopivat malliin.
Johtopäätös - Lineaarinen regressio R: ssä
Lineaarinen regressio on yksinkertainen, helppo asentaa, helppo ymmärtää, mutta erittäin tehokas malli. Näimme kuinka lineaarinen regressio voidaan suorittaa R: lle. Yritimme tulkita myös tuloksia, jotka voivat auttaa sinua mallin optimoinnissa. Kun yksinkertaisella lineaarisella regressiolla on mukavuus, tulisi kokeilla useita lineaarisia regressioita. Yhdessä tämän kanssa, koska lineaarinen regressio on herkkä poikkeaville, on syytä tutkia sitä, ennen kuin se hyppää suoraan lineaariseen regressioon.
Suositellut artikkelit
Tämä on opas R-lineaariseen regressioon R. Tässä olemme keskustelleet, mikä on lineaarinen regressio R: ssä? luokittelu, visualisointi ja tulkinta R. Voit myös käydä läpi muut ehdotetut artikkelimme saadaksesi lisätietoja -
- Ennustava mallintaminen
- Logistinen regressio R: ssä
- Päätöspuu R: ssä
- R-haastattelukysymykset
- Regression tärkeimmät erot vs. luokittelu
- Opas päätöksentekopuuhun koneoppimisessa
- Lineaarinen regressio vs. logistinen regressio | Suurimmat erot