Varianssin yksisuuntainen analyysi

Pian ANOVA: na kirjoitettu varianssianalyysi on menetelmä, jolla voimme verrata keskiarvoja kolmen tai useamman populaation välillä. Tilastollisesti kehystämme kaksi hypoteesia, nollahypoteesin: “Kaikki väestökeinot ovat tasa-arvoisia” ja vaihtoehtoinen hypoteesi: ”Kaikilla väestökeinoilla ei ole tasavertaisuutta”. Sen avulla voimme testata useiden keinojen yhtäläisyyttä yhdessä testissä sen sijaan, että verrataan kahta keinoa kerrallaan, mikä on mahdotonta, kun ryhmiä on useita. Tässä aiheessa aiomme oppia One Way ANOVA: sta R.

Varianssin yksisuuntainen analyysi auttaa meitä analysoimaan vain yhtä tekijää tai muuttujaa. Esimerkiksi alueita on viisi ja haluamme tarkistaa, ovatko kaikkien viiden alueen keskimääräiset sademäärät päivittäin keskimäärin samoja vai eroavatko ne. Tässä tapauksessa on vain yksi tekijä, joka on alue, koska meidän on tarkistettava vaikuttavatko alueelliset tekijät sademäärään ja kuvioihin.

Varianssianalyysin oletukset

Seuraavat ovat oletuksia, jotka on täytettävä yksisuuntaisen ANOVA: n soveltamiseksi:

  • Populaatiot, joista näytteet otetaan, jakautuvat normaalisti.
  • Populaatioilla, joista näytteet otetaan, on sama varianssi tai keskihajonta.
  • Eri populaatioista otetut näytteet ovat satunnaisia ​​ja riippumattomia.

Kuinka yksisuuntainen ANOVA R: ssä toimii?

Esittelyssämme käytämme tietoja, jotka sisältävät kaksi muuttujaa, nimittäin. Tuotemerkki ja myynti. Tavaramerkkejä on neljä - ATB, JKV, MKL ja PRQ. Näille merkeille annetaan kuukausittainen myynti. Meidän on tarkistettava, onko neljän brändin keskimääräinen myynti yhtä suuri vai eroavatko ne toisistaan. Tämän varmentamiseksi käytämme yksisuuntaista ANOVA: ta. Vaiheittainen menettely ANOVA: n toteuttamiseksi on seuraava:

  1. Tuo ensin tiedot R: hen. Tiedot ovat CSV-muodossa. Joten tuomme sitä käyttämällä read.csv () -toimintoa.

  1. Tarkastele tietojen ensimmäisiä tietueita. Tämä on tärkeätä tarkistaa, onko tiedot tuotu oikein R: ään. Samoin sovellamme tietojen yhteenveto () -toimintoa saadaksemme perustiedot näistä tiedoista.

  1. Joka kerta kun käytämme tietojoukossa olevia muuttujia, meidän on mainittava nimenomaisesti tietojoukon nimi, kuten brand_sales_data $ Brand tai brand_sales_data $ Sales. Tämän ratkaisemiseksi käytämme liitetiedostoa. Toiminto on käytettävä kuten alla.

  1. Yhdistetään myynti brändin mukaan keskiarvon tai keskihajonnan avulla. Yhdistäminen auttaa meitä saamaan perusajatuksen tiedoista.

Yllä oleva tulos osoittaa, että neljän eri ryhmän keskiarvot eivät ole yhtä suuret. JKV: n keskimääräinen myynti on korkeinta.

Kuten yllä voidaan nähdä, neljän ryhmän keskihajonnoilla ei ole merkittävää eroa ja se on suurin MKL-tuotemerkillä.

  1. Nyt käytämme ANOVA: ta vahvistaaksemme, ovatko kolmen populaation keskiarvot samat tai onko eroa.

Yllä olevista tuloksista voimme nähdä, että ANOVA-testi Brandille on merkittävä, koska p <0, 0001. Voimme tulkita, että kaikilla tuotemerkeillä ei ole samoja suosituimmuustasoja markkinoilla, mikä vaikuttaa näiden tuotemerkkien myyntiin markkinoilla. Tämä voi johtua monista tekijöistä ja ihmisten halusta tiettyyn tuotemerkkiin.

  1. Yllä oleva tulos voidaan visualisoida ja se tekee tulkinnan helpoksi. Tätä varten käytämme plotmeans () -toimintoa gplots () -kirjastossa. Se toimii seuraavasti:

Kuten yllä näemme, gplots-paketin plotmeans () -toiminto antaa meille mahdollisuuden verrata visuaalisesti eri ryhmien keinoja. Voimme nähdä, että keinot eivät ole samat kaikissa neljässä merkissä. Markkinoiden MKL- ja PRQ-keinot ovat kuitenkin lähellä toisiaan.

  1. Yllä oleva analyysi auttaa meitä tarkistamaan, onko tuotemerkeillä yhtäläiset resurssit vai ei, parivertailun tekeminen on sen kanssa vaikeaa. Voimme vertailla pareittain eri tuotemerkkejä TukeyHSD () -toiminnon avulla, joka auttaa tarkistamaan, eroaako tuotemerkki merkittävästi muista jäljellä olevista.

Pari pareittain kuten edellä. Ero minkä tahansa kahden ryhmän välillä on merkittävä, jos p <0, 001. Kuten edellä voimme nähdä, pQ-arvo PRQ-MKL-parille on paljon korkeampi, mikä osoittaa, että nämä kaksi merkkiä eivät ole merkittävästi eroja toisistaan.

Parivaiheisten vertailujen visualisoimiseksi piirrämme yllä olevat tulokset seuraavasti:

Ensimmäinen par-toiminto kiertää akselimerkinnät tekemällä ne vaakasuoraksi, ja toinen par-lause säätää marginaalit siten, että tarrat sopivat kunnolla, muuten ne menevät näytöltä.

Yllä oleva kaavio tarjoaa hyvän käsityksen, mutta voimme piirtää tulokset ruutupohjan muodossa saadaksemme parempia käsityksiä selkeämmälle tulkinnalle, kuten alla on osoitettu.

Edellä käytetty glht () -toiminto sisältää kattavan menetelmien sarjan useiden keinojen vertaamiseksi. Huomaa, että cld () -toiminnon tasovaihtoehto liittyy merkitsevyystasoon, esim. 0, 05 tai 95 prosenttia luottamus)

Edellä mainittua kuvaajaa käyttämällä on helppo vertailla keinoja ryhmien välillä ja se myös helpottaa systemaattista tulkintaa. Jokaisen tuotemerkin kohdalla on kirjeitä juonen yläosassa. Jos kahdella merkillä on sama kirjain, niin heillä ei ole merkittävästi erilaisia ​​keinoja kuin tuotemerkeillä MKL ja PRQ, joissa on sama kirjain b.

  1. Tähän mennessä olemme ottaneet käyttöön ANOVA: n ja käyttäneet kuvaajia tulosten visualisointiin. On kuitenkin yhtä tärkeää testata oletukset. Ensin vahvistetaan normaalioletus.

Auton paketti R: ssä tarjoaa funktion qqPlot (). Yllä oleva käyrä osoittaa, että tiedot ovat 95%: n luottamusalueella. Tämä osoittaa, että normaalisuusoletus on melkein täytetty.

Seuraavaksi tarkistetaan, ovatko merkkien väliset varianssit yhtä suuret. Tätä varten käytämme Bartlett-testiä

P-arvo osoittaa, että ryhmän väliset varianssit eivät eroa toisistaan ​​merkittävästi

Viimeisenä, mutta ei vähäisimpänä, tarkistamme, onko olemassa poikkeamia, jotka vaikuttavat ANOVA-tuloksiin.

Yllä olevasta tuloksesta voidaan nähdä, että tiedoissa ei ole mitään merkkejä poikkeavuuksista (NA tapahtuu, kun p> 1)

Kun otetaan huomioon QQ Plotin, Bartlett-testin ja Outlier-testin tulokset, voidaan sanoa, että tiedot täyttävät kaikki ANOVA-oletukset ja saadut tulokset ovat päteviä.

Johtopäätös - yksisuuntainen ANOVA R: ssä

ANOVA on erittäin kätevä tilastollinen tekniikka, jota voidaan käyttää vertaamaan keskiarvoja useiden populaatioiden välillä. R tarjoaa laajan valikoiman paketteja ANOVA: n toteuttamiseksi, tulosten saamiseksi ja oletusten validoimiseksi. R: ssä tilastolliset tulokset voidaan tulkita visuaalisissa muodoissa, jotka tarjoavat syvemmän käsityksen.

Suositellut artikkelit

Tämä on opas yksisuuntaiseen ANOVA: een R. Tässä keskustellaan kuinka yksisuuntainen ANOVA toimii ja varianssianalyysin oletukset. Saatat myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. R-ohjelmointikieli
  2. Regressio vs. ANOVA
  3. Tulosten tulkinta ANOVA-testiä käyttämällä
  4. GLM R: ssä

Luokka: