Johdatus ANOVAan R

Seuraava artikkeli ANOVA, R, tarjoaa yleiskatsauksen eri ryhmien keskiarvon vertaamiseen. Varianssianalyysi (ANOVA) on hyvin yleinen tekniikka, jota käytetään vertailemaan eri ryhmien keskiarvoa. ANOVA-mallia käytetään hypoteesin testaamiseen, jossa väestölle luodaan tietty oletus tai parametri ja tilastollisella menetelmällä määritetään, onko hypoteesi tosi vai epätosi.

Hypoteesi johdetaan tutkijan oletuksesta ja väestöstä saatavilla olevista tiedoista. ANOVA: ta kutsutaan varianssianalyysiksi ja sitä käytetään hypoteesitestauksessa, jossa muuttujan keskiarvot on mitattava useista riippumattomista ryhmistä.

Esimerkiksi laboratoriossa, jossa tutkitaan tai keksitään uutta liikalihavuuden lääkettä, tutkijat vertaa kokeellisen ja tavanomaisen hoidon tulosta. Liikalihavuustutkimuksessa voidaan saada arvokkaita tuloksia, kun väestön keskimääräistä liikalihavuusastetta voidaan verrata eri ikäryhmiin. Tässä tapauksessa haluaa seurata keskimääräistä liikalihavuusastetta eri ikäryhmissä, kuten ikä (5-18), (19, 35) ja (36-50). ANOVA-menetelmää käytetään, koska on enemmän kuin kaksi riippumatonta ryhmää. ANOVA-menetelmää käytetään vertaamaan riippumattomien ryhmien keskimääräistä liikalihavuutta. Toimintoa aov () käytetään ja syntaksia on aov (kaava, data = datakehys). Tässä artikkelissa opitaan ANOVA-mallista ja keskustellaan edelleen yksisuuntaisesta ja kaksisuuntaisesta ANOVA-mallista yhdessä esimerkkien kanssa.

Miksi ANOVA?

  • Tätä tekniikkaa käytetään vastaamaan hypoteesiin samalla kun analysoidaan useita tietoryhmiä. Tilastollisia lähestymistapoja on useita, kuitenkin ANOVA: ta R: ssä käytetään, kun vertailu on tehtävä useammalle kuin kahdelle riippumattomalle ryhmälle, kuten edellisessä esimerkissämme kolmelle eri ikäryhmälle.
  • ANOVA-tekniikka mittaa riippumattomien ryhmien keskiarvon saadakseen tutkijoille hypoteesin tuloksen. Jotta tulokset olisivat tarkkoja, näytteen keskiarvo, näytteen koko ja keskihajonta kustakin ryhmästä on otettava huomioon.
  • Vertailun vuoksi on mahdollista tarkkailla keskiarvo erikseen jokaiselle kolmesta ryhmästä. Tällä lähestymistavalla on kuitenkin rajoituksia ja se voi osoittautua väärin, koska nämä kolme vertailua eivät ota huomioon kokonaistietoja ja voivat siten johtaa tyypin 1 virheeseen. R tarjoaa meille toiminnon suorittaa ANOVA-analyysi tutkiaksesi vaihtelua riippumattomien tietoryhmien välillä. ANOVA-analyysin suorittamisessa on viisi vaihetta. Ensimmäisessä vaiheessa tiedot järjestetään csv-muodossa ja sarake luodaan jokaiselle muuttujalle. Yksi sarakkeista olisi riippuvainen muuttuja ja loput ovat riippumattomia muuttujia. Toisessa vaiheessa tiedot luetaan R-studiossa ja nimetään asianmukaisesti. Kolmannessa vaiheessa tietojoukko liitetään yksittäisiin muuttujiin ja muisti lukee sen. Lopuksi määritetään ja analysoidaan R: n ANOVA. Seuraavissa osioissa olen antanut pari tapaustutkimusesimerkkiä, joissa ANOVA-tekniikoita tulisi käyttää.
  • Kuusi hyönteismyrkkyä testattiin 12 kentällä kussakin, ja tutkijat laskivat virheiden lukumäärän, joka oli jäljellä kullakin kentällä. Nyt viljelijöiden on tiedettävä, vaikuttavatko hyönteismyrkyt ja jos on, mitä he parhaiten käyttävät. Vastaat tähän kysymykseen käyttämällä aov () -toimintoa suorittamaan ANOVA.
  • Viisikymmentä potilasta sai yhden viidestä kolesterolia alentavaa lääkehoitoa (trt). Kolme hoitotilaa sisälsi saman lääkkeen, jota annettiin 20 mg kerran päivässä (1 kerta) 10 mg kahdesti päivässä (2 kertaa) 5 mg neljä kertaa päivässä (4 kertaa). Kaksi jäljellä olevaa tilaa (drugD ja drugE) edustivat kilpailevia lääkkeitä. Mikä lääkehoito vähensi kolesterolia eniten (vaste)?

ANOVA yksisuuntainen

  • Yksisuuntainen menetelmä on yksi ANOVA-tekniikan perusmenetelmiä, joissa käytetään varianssianalyysiä ja verrataan useiden väestöryhmien keskiarvoa.
  • Yhdensuuntainen ANOVA sai nimensä yksisuuntaisen turvaluokitellun tiedon saatavuuden takia. Yhdensuuntaisena ANOVA: na voi olla saatavana yksi riippuvainen muuttuja ja yksi tai useampi riippumaton muuttuja.
  • Esimerkiksi, suoritamme ANOVA-tekniikan kolesterolitiedot. Aineisto koostuu kahdesta muuttujasta trt (jotka ovat hoitoja viidellä eri tasolla) ja vastemuuttujista. Riippumaton muuttuja - huumehoidon ryhmät, riippuvainen muuttuja - keskiarvo kahdesta tai useammasta ryhmästä ANOVA. Näistä tuloksista voit varmistaa, että 5 mg: n annoksen ottaminen 4 kertaa päivässä oli parempi kuin kaksikymmentä mg: n annoksen ottaminen kerran päivässä. D-lääkkeellä on parempia vaikutuksia verrattuna lääkkeeseen E

D-lääke antaa parempia tuloksia, jos sitä otetaan 20 mg: n annoksina verrattuna lääkkeeseen E

Käyttää kolesterolitietoa multcomp-paketissa
install.packages('multcomp')
library(multcomp)
str(cholesterol)
attach(cholesterol)
aov_model <- aov(response ~ trt)

Hoidon ANOVA F -testi (trt) on merkittävä (p <.0001), mikä osoittaa, että viisi hoitoa
# eivät ole kaikki yhtä tehokkaita.
Yhteenveto (aov_model)
Irrota (kolesteroli)

Gplots-paketin plotmeans () -funktiota voidaan käyttää ryhmäkeskiarvojen ja niiden luottamusvälien kuvaajan tuottamiseen. Tämä osoittaa selvästi hoitoerot
install.packages('gplots')
library(gplots)
plotmeans(response ~ trt, xlab="Treatment", ylab="Response",
main="Mean Plot\nwith 95% CI")

Tarkastellaan TukeyHSD: n () lähtöä pariryhmän välisten erojen suhteen

TukeyHSD (aov_model)

Keskimääräiset kolesterolin vähennykset yhdellä kertaa ja 2 kertaa eivät ole merkitsevästi eroja toisistaan ​​(p = 0, 138), kun taas ero yhden kerran ja 4 kertaa on merkittävästi erilainen (p <.001).
par (mar = c (5, 8, 4, 2)) # lisää vasemman marginaalin kuvaajaa (TukeyHSD (aov_model), las = 2)

Luottamus tuloksiin riippuu siitä, missä määrin tietosi täyttävät tilastollisten testien taustalla olevat oletukset. Yhdensuuntaisen ANOVA: n mukaan riippuvaisen muuttujan oletetaan jakautuvan normaalisti ja sillä on sama varianssi kussakin ryhmässä. Voit käyttää QQ-käyrää arvioidaksesi normaalisuusoletuskirjaston (auto).
QQ-kuvaaja (lm (vaste ~ trt, data = kolesteroli), simuloi = TOSI, pää = "QQ-käyrä", etiketit = Väärä)

Pisteviiva = 95%: n luottamuskuori, mikä viittaa siihen, että normaalioletus on toteutettu melko hyvin. ANOVA olettaa, että varianssit ovat samat ryhmien tai näytteiden välillä. Bartlett-testiä voidaan käyttää todentamaan tämä oletus
bartlett.test (vaste ~ trt, data = kolesteroli). Bartlett-testi osoittaa, että varianssit viidessä ryhmässä eivät eroa merkittävästi (p = 0, 97).

ANOVA on myös herkkä poikkeavuustestille, joka käyttää outlierTest () -toimintoa autopaketissa. Sinun ei tarvitse suorittaa tätä pakettia päivittääksesi autokirjastosi.
update.packages(checkBuilt = TRUE)
install.packages("car", dependencies = TRUE)
library(car)
outlierTest(aov_model)

Tuloksesta voi nähdä, että kolesterolitiedoissa ei ole mitään merkkejä poikkeavuuksista (NA esiintyy, kun p> 1). Kun otetaan QQ-kuvaaja, Bartlett-testi ja ulkopuolinen testi yhdessä, tiedot näyttävät sopivan ANOVA-malliin melko hyvin.

Kaksisuuntainen Anova

Toinen muuttuja lisätään kaksisuuntaiseen ANOVA-testiin. Kun on kaksi riippumatonta muuttujaa, meidän on käytettävä kaksisuuntaista ANOVA: ta kuin yksisuuntaista ANOVA-tekniikkaa, jota käytettiin edellisessä tapauksessa, jossa meillä oli yksi jatkuvasti riippuvainen muuttuja ja useampi kuin yksi riippumaton muuttuja. Kaksisuuntaisen ANOVA: n todentamiseksi useiden oletusten on täytyttävä.

  1. Riippumattomien havaintojen saatavuus
  2. Havainnot tulisi jakaa normaalisti
  3. Varianssin tulisi olla yhtä suuri havainnoissa
  4. Poikkeavia ei tule olla läsnä
  5. Itsenäiset virheet

Kaksisuuntaisen ANOVA: n tarkistamiseksi lisätään tietojoukkoon toinen muuttuja nimeltään BP. Muuttuja osoittaa verenpaineen nopeuden potilailla. Haluamme tarkistaa, onko BP: n ja potilaille annettavan annoksen välillä tilastollista eroa.

df <- read.csv (“file.csv”)
DF
anova_two_way <- aov (vastaus ~ trt + BP, data = df)
Yhteenveto (anova_two_way)

Tuloksesta voidaan päätellä, että sekä trt että BP eroavat tilastollisesti nollasta. Näin ollen Null-hypoteesi voidaan hylätä.

ANOVAn hyödyt tutkimuksessa R

ANOVA-testi määrittää keskiarvon eron kahden tai useamman riippumattoman ryhmän välillä. Tämä tekniikka on erittäin hyödyllinen monien kohteiden analysoinnissa, mikä on välttämätöntä markkina-analyysille. ANOVA-testiä käyttämällä voidaan saada tarvittavat käsitykset tiedoista. Esimerkiksi tuotekyselyn aikana, jossa käyttäjiltä kerätään useita tietoja, kuten ostoslistoja, asiakkaiden tykkäyksiä ja epäonnistumisia. ANOVA-testi auttaa meitä vertaamaan väestöryhmiä. Ryhmä voi olla joko mies vs. nainen tai eri ikäryhmät. ANOVA-tekniikka auttaa erottamaan väestön eri ryhmien keskimääräiset arvot, jotka ovat todellakin erilaisia.

Johtopäätös - ANOVA R: ssä

ANOVA on yksi yleisimmin käytetyistä menetelmistä hypoteesitestauksessa. Tässä artikkelissa olemme suorittaneet ANOVA-testin tietokokonaisuudesta, joka koostuu viidestäkymmenestä potilaasta, jotka saivat kolesterolia alentavaa lääkehoitoa, ja olemme lisäksi nähneet, kuinka kaksisuuntainen ANOVA voidaan suorittaa, kun käytettävissä on erillinen riippumaton muuttuja.

Suositellut artikkelit

Tämä on opas ANOVAan R. Tässä keskustelemme yksisuuntaisesta ja kaksisuuntaisesta Anova-mallista sekä esimerkkeistä ja ANOVAn eduista. Voit myös käydä läpi muiden ehdottamiemme artikkeleidemme -

  1. Regressio vs. ANOVA
  2. Mikä on SPSS?
  3. Tulosten tulkinta ANOVA-testiä käyttämällä
  4. Toiminnot R: ssä

Luokka: