Mikä on klusterianalyysi

Klusterianalyysi ryhmittelee tiedot omistamiensa ominaisuuksien perusteella. Klusterianalyysi ryhmittelee objektit tekijöiden perusteella, jotka tekevät niistä samanlaisia. Ryhmäanalyysiä kutsutaan muuten segmentointianalyysiksi tai taksonomia-analyysiin. Klusterianalyysi ei erota riippuvaisia ​​ja riippumattomia muuttujia. Klusterianalyysiä käytetään monilla eri aloilla, kuten psykologia, biologia, tilastot, tiedon louhinta, kuvioiden tunnistaminen ja muut yhteiskuntatieteet.

Klusterianalyysin tavoite

Klusterianalyysin päätavoite on käsitellä jokaisen tietojoukon heterogeenisyyttä. Muut klusterianalyysin tavoitteet ovat

  • Taksonomian kuvaus - Tietojen ryhmien tunnistaminen
  • Tietojen yksinkertaistaminen - kyky analysoida samanlaisten havaintojen ryhmiä kaikkien yksittäisten havaintojen sijaan
  • Hypoteesin luominen tai testaaminen - Kehitä tietojen luonteeseen perustuva hypoteesi tai testaa aiemmin esitetty hypoteesi
  • Suhteiden tunnistaminen - Ryhmien analysoinnin yksinkertaistettu rakenne, joka kuvaa suhteita

Klusterianalyysillä on kaksi päätarkoitusta - ymmärtäminen ja hyödyllisyys.

Ymmärryksen ollessa klusterianalyysi ryhmittelee kohteita, joilla on joitain yhteisiä ominaisuuksia

Hyödyllisyyden kannalta klusterianalyysi tarjoaa kunkin tietoobjektin ominaisuudet klusterille, johon ne kuuluvat.

Klusterianalyysi kulkee käsi kädessä tekijäanalyysin ja syrjivän analyysin kanssa.

Sinun tulisi kysyä itseltäsi muutama klusterianalyysikysymys ennen kuin aloitat sen kanssa

  • Mitkä muuttujat ovat merkityksellisiä?
  • Riittääkö otoksen koko?
  • Voidaanko poikkeavuuksia havaita ja pitäisiko ne poistaa?
  • Kuinka vastalauseen tulisi mitata?
  • Pitäisikö tiedot standardoida?

Klusterityypit

Klusterointia on kolme päätyyppiä

  • Hierarkkinen klusterointi - joka sisältää agglomeratiivisen ja jakavan menetelmän
  • Osittainen klusterointi - Sisältää sen alla K-välineet, sumea K-välineet, isodatan
  • Tiheyspohjainen klusterointi - Sen alla on Denclust, CLUPOT, Mean Shift, SVC, Parzen-vesistöalue

Klusterianalyysin oletukset

Klusterianalyysissä on aina kaksi olettamusta

  • Oletetaan, että otos edustaa väestöä
  • Oletetaan, että muuttujat eivät ole korreloivia. Vaikka muuttujat korreloivat, poista korreloivat muuttujat tai käytä etäisyysmittareita, jotka kompensoivat korrelaation.

Klusterianalyysin vaiheet

    • Vaihe 1: Määritä ongelma
    • Vaihe 2: Päätä sopiva samankaltaisuusmitta
    • Vaihe 3: Päätä objektien ryhmittelystä
    • Vaihe 4: Päätä klusterien lukumäärä
    • Vaihe 5: Tulkitse, kuvaa ja validoi klusteri

Klusterianalyysi SPSS: ssä

SPSS: stä löydät klusterianalyysin vaihtoehdon Analysoi / luokittele. SPSS: ssä klusterianalyysissä on kolme menetelmää - K-Means-klusteri, Hierarkkinen klusteri ja Kaksivaiheinen klusteri.

K-Means-klusterimenetelmä luokittelee tietyn datajoukon kiinteän määrän klusterien kautta. Tämä menetelmä on helppo ymmärtää ja antaa parhaan tuloksen, kun tiedot ovat hyvin erillään toisistaan.

Kaksivaiheinen klusterianalyysi on työkalu, joka on suunniteltu käsittelemään suuria tietojoukkoja. Se luo klusterit sekä kategorisiin että jatkuviin muuttujiin.

Hierarkkinen klusteri on klusterianalyysissä yleisimmin käytetty menetelmä. Se yhdistää tapaukset homogeenisiksi klustereiksi yhdistämällä ne sarjassa peräkkäisiä vaiheita.

Hierarkkinen klusterianalyysi sisältää kolme vaihetta

  • Laske etäisyys
  • Yhdistä klusterit
  • Ratkaisun valitseminen valitsemalla oikea määrä klustereita

Alla on ohjeet hierarkkisen klusterianalyysin suorittamiseksi SPSS: ssä.

  • Ensimmäinen vaihe on valita muuttujat, jotka on tarkoitus ryhmittää. Alla oleva valintaikkuna selittää sen sinulle
  • Napsauttamalla yllä olevan valintaikkunan tilastointiasetusta, saat valintaikkunan, jossa haluat määrittää tulosteen
  • Lisää valintaikkunakaavioihin Dendrogram. Dendrogrammi on hierarkkisen klusterianalyysimenetelmän graafinen esitys. Se osoittaa, kuinka klusterit yhdistetään jokaisessa vaiheessa, kunnes se muodostaa yhden klusterin.
  • Valintaikkunamenetelmä on tärkeä. Voit mainita etäisyyden ja klusterointimenetelmän täällä. SPSS: ssä on kolme intervalli-, laskenta- ja binaaritietojen mittaa.
  • Ruudun euklidian etäisyys on neliöerojen summa ilman, että otetaan huomioon neliöjuuri.
  • Laskelmissa voit valita Chi Square- ja Phi Square -mittojen välillä
  • Binaariosassa voit valita paljon vaihtoehtoja. Ruudun euklidinen etäisyys on paras vaihtoehto käyttää.
  • Seuraava vaihe on valita klusterimenetelmä. On aina suositeltavaa käyttää Yhden kytkennän tai Lähin naapuri, koska se auttaa helposti tunnistamaan poikkeamat. Kun poikkeavat on tunnistettu, voit käyttää Wardin menetelmää.
  • Viimeinen vaihe on standardointi

Klusterianalyysin kriitikot

Yleisimmät kritiikat on lueteltu alla

  • Se on kuvaileva, teoreettinen ja ei-päättävä.
  • Se tuottaa klustereita riippumatta minkä tahansa rakenteen todellisesta olemassaolosta
  • Sitä ei voida käyttää laajasti, koska se riippuu täysin muuttujista, joita käytetään samanlaisuusmittauksen perustana

Mikä on tekijäanalyysi?

Faktorianalyysi on tutkittava analyysi, joka auttaa ryhmittelemään samanlaisia ​​muuttujia ulottuvuuksiin. Sitä voidaan käyttää tiedon yksinkertaistamiseen vähentämällä havaintojen mittoja. Faktorianalyysissä on useita erilaisia ​​rotaatiomenetelmiä.

Faktorianalyysiä käytetään pääasiassa tiedon vähentämiseen.

Tekijäanalyysejä on kahta tyyppiä - tutkittava ja varmentava

  • Tutkimusmenetelmää käytetään, kun sinulla ei ole ennalta määriteltyä käsitystä muuttujien joukon rakenteista tai ulottuvuuksista.
  • Vahvistavaa menetelmää käytetään, kun haluat testata tiettyä hypoteesia muuttujien joukon rakenteista tai mitoista.

Tekijäanalyysin tavoitteet

Tekijäanalyysillä on kaksi päätavoitetta, jotka mainitaan jäljempänä

  • Taustalla olevien tekijöiden tunnistaminen - Tähän sisältyy muuttujien ryhmittely homogeenisiin joukkoihin, uusien muuttujien luominen ja luokkien tuntemuksen auttaminen
  • Muuttujien seulonta - Se on hyödyllinen regressoinnissa ja yksilöi ryhmittelyt, jotta voit valita yhden muuttujan, joka edustaa monia.

Faktorianalyysin oletukset

Faktorianalyysissä on neljä pääolettamista, jotka mainitaan jäljempänä

  • Mallit perustuvat yleensä lineaarisiin suhteisiin
  • Siinä oletetaan, että kerätyt tiedot ovat intervalliskaalaisia
  • Tietojen monikollineaarisuus on toivottavaa, koska tavoitteena on selvittää toisiinsa liittyvät muuttujat
  • Tietojen tulisi olla avoimia ja reagoivia tekijäanalyysiin. Sen ei pitäisi olla sellainen, että muuttuja korreloi vain itsensä kanssa eikä korrelaatiota ole minkään muun muuttujan kanssa. Tällaisista tiedoista ei voida tehdä tekijäanalyysiä.

Faktorisoinnin tyypit

  • Pääkomponenttitekniikka - Yleisimmin käytetty menetelmä, jossa kerroinpainot lasketaan suurimman mahdollisen varianssin saamiseksi ja jatkuu, kunnes merkityksellistä varianssia ei ole jäljellä.
  • Kanoninen tekijäanalyysi - Löydät tekijät, joilla on suurin kanoninen korrelaatio havaittujen muuttujien kanssa
  • Yhteinen tekijäanalyysi - Etsii vähiten tekijöitä, jotka voivat ottaa huomioon muuttujien joukon yhteisen varianssin
  • Kuvankerroin - perustuu korrelaatiomatriisiin, jossa jokainen muuttuja ennustetaan muista käyttämällä useita regressioita
  • Alfa Factoring - Maksimoi tekijöiden luotettavuuden
  • Faktor regressiomalli - tekijämallin ja regressiomallin yhdistelmä, jonka tekijät ovat osittain tiedossa

Tekijäanalyysin perusteet

  1. Eigenvalue-kriteerit

  • Esittää alkuperäisten muuttujien varianssin määrän, joka liittyy tekijään
  • Kunkin muuttujan kerroinkuormitusten neliön summa edustaa ominaisarvoa
  • Kertoimet, joiden ominaisarvot ovat suurempia kuin 1, 0, pidetään
  1. Scree Plot -kriteerit

  • Ominaisarvojen kuvaaja tekijöiden lukumäärään nähden uuton järjestyksessä.
  • Tontin muoto määrää tekijöiden määrän
  1. Prosenttiosuus varianssikriteereistä

  • Uutettujen tekijöiden lukumäärä selvitetään siten, että tekijöiden erottama kasvava varianssiprosentti saavuttaa tyytyväisyyden tason.
  1. Merkitystestikriteerit

  • Erillisten ominaisarvojen tilastollinen merkitys selvitetään, ja vain ne tekijät, jotka ovat tilastollisesti merkitseviä, säilytetään

Faktorianalyysiä käytetään eri aloilla, kuten psykologia, sosiologia, valtiotiede, koulutus ja mielenterveys.

Faktorianalyysi SPSS: ssä

SPSS: ssä tekijäanalyysivaihtoehto löytyy Analysoi à mitan pienentäminen à tekijä

  • Aloita lisäämällä muuttujat muuttujaluetteloon
  • Napsauta kuvaavaa välilehteä ja lisää muutama tilasto, jonka perusteella tekijäanalyysin oletukset varmennetaan.
  • Napsauta louhinta-vaihtoehtoa, jonka avulla voit valita uuttamismenetelmän ja rajata arvon uuttamiseen
  • Pääkomponentit (PCA) on oletusuuttomenetelmä, joka erottaa muuttujien jopa korreloimattomat lineaariset yhdistelmät. PCA: ta voidaan käyttää, kun korrelaatiomatriisi on singular. Se on hyvin samanlainen kuin Canonical Correlation Analysis, jossa ensimmäisellä tekijällä on suurin varianssi ja seuraavat tekijät selittävät pienemmän osan varianssista.
  • Toinen yleisin analyysi on pääakselin factoring. Se tunnistaa havaintojen takana olevat piilevät rakenteet.
  • Seuraava vaihe on valita kiertotapa. Yleisimmin käytetty menetelmä on Varimax. Tämä menetelmä yksinkertaistaa tekijöiden tulkintaa.
  • Toinen menetelmä on Quartimax. Tämä menetelmä kiertää tekijöitä minimoimaan tekijöiden lukumäärä. Se yksinkertaistaa havaitun muuttujan tulkintaa.
  • Seuraava menetelmä on Equamax, joka on yhdistelmä kahdesta edellä mainitusta menetelmästä.
  • Napsauttamalla valintaikkunaa “Asetukset” voit hallita puuttuvia arvoja
  • Ennen kuin tallennat tulokset tietojoukkoon, suorita ensin tekijäanalyysi ja tarkista oletukset ja varmista, että tulokset ovat merkityksellisiä ja hyödyllisiä.

Klusterianalyysi vs. tekijäanalyysi

Sekä klusterianalyysi että tekijäanalyysi ovat ohjaamatonta oppimismenetelmää, jota käytetään datan segmentointiin. Monet tutkijat, jotka ovat uusia tällä alalla, kokevat klusterianalyysin ja tekijäanalyysin olevan samanlaiset. Se voi näyttää samanlaiselta, mutta ne eroavat monin tavoin. Erot klusterianalyysin ja tekijäanalyysin välillä on lueteltu alla

  • Tavoite

Klusterin ja tekijäanalyysin tavoite ovat erilaiset. Klusterianalyysin tavoitteena on jakaa havainnot homogeenisiin ja erillisiin ryhmiin. Faktorianalyysi puolestaan ​​selittää arvojen samanlaisuudesta johtuvien muuttujien homogeenisuuden.

  • Monimutkaisuus

Monimutkaisuus on toinen tekijä, jolla klusteri ja tekijäanalyysi eroavat toisistaan. Tietojen koko vaikuttaa analyysiin eri tavalla. Jos datan koko on liian suuri, siitä tulee laskennallisesti vaikeasti klusterianalyysissä.

  • Ratkaisu

Ratkaisu ongelmaan on enemmän tai vähemmän samanlainen sekä tekijä- että klusterianalyysissä. Mutta tekijäanalyysi tarjoaa tutkijalle paremman ratkaisun parempana. Klusterianalyysi ei tuota parhainta tulosta, koska kaikki klusterianalyysin algoritmit ovat laskennallisesti tehottomia.

  • Sovellukset

Faktorianalyysiä ja klusterianalyysiä sovelletaan toisin kuin todellisessa tiedossa. Faktorianalyysi soveltuu monimutkaisten mallien yksinkertaistamiseen. Se vähentää suuren joukon muuttujia paljon pienemmäksi tekijäjoukkoksi. Tutkija voi kehittää joukon hypoteesia ja suorittaa tekijäanalyysin vahvistaakseen tai kieltääksesi tämän hypoteesin.

Klusterianalyysi sopii luokittelemaan kohteita tiettyjen kriteerien perusteella. Tutkija voi mitata ryhmän tiettyjä piirteitä ja jakaa ne erityisiin luokkiin klusterianalyysin avulla.

On myös paljon muita eroja, jotka mainitaan alla

  • Klusterianalyysi yrittää ryhmitellä tapauksia, kun taas tekijäanalyysi yrittää ryhmitellä piirteitä.
  • Klusterianalyysillä löydetään pienempiä tapausryhmiä, jotka edustavat koko tietoa. Faktorianalyysillä löydetään pienempi ryhmä ominaisuuksia, jotka edustavat tietojoukon alkuperäisiä piirteitä.
  • Tärkein osa klusterianalyysiä on klustereiden löytäminen. Pohjimmiltaan klusterointimenetelmät jaetaan kahteen osaan - agglomeroiva menetelmä ja osiointimenetelmä. Agglomeratiivinen menetelmä alkaa jokaisella tapauksella omassa klusterissaan ja loppuu, kun kriteeri saavutetaan. Ositusmenetelmä alkaa kaikista tapauksista yhdessä klusterissa.
  • Faktorianalyysillä selvitetään tietojoukon taustalla oleva rakenne.

johtopäätös

Toivottavasti tämä artikkeli olisi auttanut sinua ymmärtämään klusterianalyysin ja tekijäanalyysin perusteet ja näiden kahden erot.

Aiheeseen liittyvät kurssit: -

  1. Klusterianalyysikurssi

Luokka: