Esittelyssä paras vertailu Cluster v / s -tekijäanalyysiin

Mikä on klusterianalyysi

Klusterianalyysi ryhmittelee tiedot omistamiensa ominaisuuksien perusteella. Klusterianalyysi ryhmittelee objektit tekijöiden perusteella, jotka tekevät niistä samanlaisia. Ryhmäanalyysiä kutsutaan muuten segmentointianalyysiksi tai taksonomia-analyysiin. Klusterianalyysi ei erota riippuvaisia ja riippumattomia muuttujia. Klusterianalyysiä käytetään monilla eri aloilla, kuten psykologia, biologia, tilastot, tiedon louhinta, kuvioiden tunnistaminen ja muut yhteiskuntatieteet.

Klusterianalyysin tavoite

Klusterianalyysin päätavoite on käsitellä jokaisen tietojoukon heterogeenisyyttä. Muut klusterianalyysin tavoitteet ovat

Taksonomian kuvaus - Tietojen ryhmien tunnistaminen
Tietojen yksinkertaistaminen - kyky analysoida samanlaisten havaintojen ryhmiä kaikkien yksittäisten havaintojen sijaan
Hypoteesin luominen tai testaaminen - Kehitä tietojen luonteeseen perustuva hypoteesi tai testaa aiemmin esitetty hypoteesi
Suhteiden tunnistaminen - Ryhmien analysoinnin yksinkertaistettu rakenne, joka kuvaa suhteita

Klusterianalyysillä on kaksi päätarkoitusta - ymmärtäminen ja hyödyllisyys.

Ymmärryksen ollessa klusterianalyysi ryhmittelee kohteita, joilla on joitain yhteisiä ominaisuuksia

Hyödyllisyyden kannalta klusterianalyysi tarjoaa kunkin tietoobjektin ominaisuudet klusterille, johon ne kuuluvat.

Klusterianalyysi kulkee käsi kädessä tekijäanalyysin ja syrjivän analyysin kanssa.

Sinun tulisi kysyä itseltäsi muutama klusterianalyysikysymys ennen kuin aloitat sen kanssa

Mitkä muuttujat ovat merkityksellisiä?
Riittääkö otoksen koko?
Voidaanko poikkeavuuksia havaita ja pitäisiko ne poistaa?
Kuinka vastalauseen tulisi mitata?
Pitäisikö tiedot standardoida?

Klusterityypit

Klusterointia on kolme päätyyppiä

Hierarkkinen klusterointi - joka sisältää agglomeratiivisen ja jakavan menetelmän
Osittainen klusterointi - Sisältää sen alla K-välineet, sumea K-välineet, isodatan
Tiheyspohjainen klusterointi - Sen alla on Denclust, CLUPOT, Mean Shift, SVC, Parzen-vesistöalue

Klusterianalyysin oletukset

Klusterianalyysissä on aina kaksi olettamusta

Oletetaan, että otos edustaa väestöä
Oletetaan, että muuttujat eivät ole korreloivia. Vaikka muuttujat korreloivat, poista korreloivat muuttujat tai käytä etäisyysmittareita, jotka kompensoivat korrelaation.

Klusterianalyysin vaiheet

- Vaihe 1: Määritä ongelma
- Vaihe 2: Päätä sopiva samankaltaisuusmitta
- Vaihe 3: Päätä objektien ryhmittelystä
- Vaihe 4: Päätä klusterien lukumäärä
- Vaihe 5: Tulkitse, kuvaa ja validoi klusteri

Klusterianalyysi SPSS: ssä

SPSS: stä löydät klusterianalyysin vaihtoehdon Analysoi / luokittele. SPSS: ssä klusterianalyysissä on kolme menetelmää - K-Means-klusteri, Hierarkkinen klusteri ja Kaksivaiheinen klusteri.

K-Means-klusterimenetelmä luokittelee tietyn datajoukon kiinteän määrän klusterien kautta. Tämä menetelmä on helppo ymmärtää ja antaa parhaan tuloksen, kun tiedot ovat hyvin erillään toisistaan.

Kaksivaiheinen klusterianalyysi on työkalu, joka on suunniteltu käsittelemään suuria tietojoukkoja. Se luo klusterit sekä kategorisiin että jatkuviin muuttujiin.

Hierarkkinen klusteri on klusterianalyysissä yleisimmin käytetty menetelmä. Se yhdistää tapaukset homogeenisiksi klustereiksi yhdistämällä ne sarjassa peräkkäisiä vaiheita.

Hierarkkinen klusterianalyysi sisältää kolme vaihetta

Laske etäisyys
Yhdistä klusterit
Ratkaisun valitseminen valitsemalla oikea määrä klustereita

Alla on ohjeet hierarkkisen klusterianalyysin suorittamiseksi SPSS: ssä.

Ensimmäinen vaihe on valita muuttujat, jotka on tarkoitus ryhmittää. Alla oleva valintaikkuna selittää sen sinulle
Napsauttamalla yllä olevan valintaikkunan tilastointiasetusta, saat valintaikkunan, jossa haluat määrittää tulosteen
Lisää valintaikkunakaavioihin Dendrogram. Dendrogrammi on hierarkkisen klusterianalyysimenetelmän graafinen esitys. Se osoittaa, kuinka klusterit yhdistetään jokaisessa vaiheessa, kunnes se muodostaa yhden klusterin.
Valintaikkunamenetelmä on tärkeä. Voit mainita etäisyyden ja klusterointimenetelmän täällä. SPSS: ssä on kolme intervalli-, laskenta- ja binaaritietojen mittaa.
Ruudun euklidian etäisyys on neliöerojen summa ilman, että otetaan huomioon neliöjuuri.
Laskelmissa voit valita Chi Square- ja Phi Square -mittojen välillä
Binaariosassa voit valita paljon vaihtoehtoja. Ruudun euklidinen etäisyys on paras vaihtoehto käyttää.
Seuraava vaihe on valita klusterimenetelmä. On aina suositeltavaa käyttää Yhden kytkennän tai Lähin naapuri, koska se auttaa helposti tunnistamaan poikkeamat. Kun poikkeavat on tunnistettu, voit käyttää Wardin menetelmää.
Viimeinen vaihe on standardointi

Klusterianalyysin kriitikot

Yleisimmät kritiikat on lueteltu alla

Se on kuvaileva, teoreettinen ja ei-päättävä.
Se tuottaa klustereita riippumatta minkä tahansa rakenteen todellisesta olemassaolosta
Sitä ei voida käyttää laajasti, koska se riippuu täysin muuttujista, joita käytetään samanlaisuusmittauksen perustana

Mikä on tekijäanalyysi?

Faktorianalyysi on tutkittava analyysi, joka auttaa ryhmittelemään samanlaisia muuttujia ulottuvuuksiin. Sitä voidaan käyttää tiedon yksinkertaistamiseen vähentämällä havaintojen mittoja. Faktorianalyysissä on useita erilaisia rotaatiomenetelmiä.

Faktorianalyysiä käytetään pääasiassa tiedon vähentämiseen.

Tekijäanalyysejä on kahta tyyppiä - tutkittava ja varmentava

Tutkimusmenetelmää käytetään, kun sinulla ei ole ennalta määriteltyä käsitystä muuttujien joukon rakenteista tai ulottuvuuksista.
Vahvistavaa menetelmää käytetään, kun haluat testata tiettyä hypoteesia muuttujien joukon rakenteista tai mitoista.

Tekijäanalyysin tavoitteet

Tekijäanalyysillä on kaksi päätavoitetta, jotka mainitaan jäljempänä

Taustalla olevien tekijöiden tunnistaminen - Tähän sisältyy muuttujien ryhmittely homogeenisiin joukkoihin, uusien muuttujien luominen ja luokkien tuntemuksen auttaminen
Muuttujien seulonta - Se on hyödyllinen regressoinnissa ja yksilöi ryhmittelyt, jotta voit valita yhden muuttujan, joka edustaa monia.

Faktorianalyysin oletukset

Faktorianalyysissä on neljä pääolettamista, jotka mainitaan jäljempänä

Mallit perustuvat yleensä lineaarisiin suhteisiin
Siinä oletetaan, että kerätyt tiedot ovat intervalliskaalaisia
Tietojen monikollineaarisuus on toivottavaa, koska tavoitteena on selvittää toisiinsa liittyvät muuttujat
Tietojen tulisi olla avoimia ja reagoivia tekijäanalyysiin. Sen ei pitäisi olla sellainen, että muuttuja korreloi vain itsensä kanssa eikä korrelaatiota ole minkään muun muuttujan kanssa. Tällaisista tiedoista ei voida tehdä tekijäanalyysiä.

Faktorisoinnin tyypit

Pääkomponenttitekniikka - Yleisimmin käytetty menetelmä, jossa kerroinpainot lasketaan suurimman mahdollisen varianssin saamiseksi ja jatkuu, kunnes merkityksellistä varianssia ei ole jäljellä.
Kanoninen tekijäanalyysi - Löydät tekijät, joilla on suurin kanoninen korrelaatio havaittujen muuttujien kanssa
Yhteinen tekijäanalyysi - Etsii vähiten tekijöitä, jotka voivat ottaa huomioon muuttujien joukon yhteisen varianssin
Kuvankerroin - perustuu korrelaatiomatriisiin, jossa jokainen muuttuja ennustetaan muista käyttämällä useita regressioita
Alfa Factoring - Maksimoi tekijöiden luotettavuuden
Faktor regressiomalli - tekijämallin ja regressiomallin yhdistelmä, jonka tekijät ovat osittain tiedossa

Tekijäanalyysin perusteet

Eigenvalue-kriteerit

Esittää alkuperäisten muuttujien varianssin määrän, joka liittyy tekijään
Kunkin muuttujan kerroinkuormitusten neliön summa edustaa ominaisarvoa
Kertoimet, joiden ominaisarvot ovat suurempia kuin 1, 0, pidetään

Scree Plot -kriteerit

Ominaisarvojen kuvaaja tekijöiden lukumäärään nähden uuton järjestyksessä.
Tontin muoto määrää tekijöiden määrän

Prosenttiosuus varianssikriteereistä

Uutettujen tekijöiden lukumäärä selvitetään siten, että tekijöiden erottama kasvava varianssiprosentti saavuttaa tyytyväisyyden tason.

Merkitystestikriteerit

Erillisten ominaisarvojen tilastollinen merkitys selvitetään, ja vain ne tekijät, jotka ovat tilastollisesti merkitseviä, säilytetään

Faktorianalyysiä käytetään eri aloilla, kuten psykologia, sosiologia, valtiotiede, koulutus ja mielenterveys.

Faktorianalyysi SPSS: ssä

SPSS: ssä tekijäanalyysivaihtoehto löytyy Analysoi à mitan pienentäminen à tekijä

Aloita lisäämällä muuttujat muuttujaluetteloon
Napsauta kuvaavaa välilehteä ja lisää muutama tilasto, jonka perusteella tekijäanalyysin oletukset varmennetaan.
Napsauta louhinta-vaihtoehtoa, jonka avulla voit valita uuttamismenetelmän ja rajata arvon uuttamiseen
Pääkomponentit (PCA) on oletusuuttomenetelmä, joka erottaa muuttujien jopa korreloimattomat lineaariset yhdistelmät. PCA: ta voidaan käyttää, kun korrelaatiomatriisi on singular. Se on hyvin samanlainen kuin Canonical Correlation Analysis, jossa ensimmäisellä tekijällä on suurin varianssi ja seuraavat tekijät selittävät pienemmän osan varianssista.
Toinen yleisin analyysi on pääakselin factoring. Se tunnistaa havaintojen takana olevat piilevät rakenteet.
Seuraava vaihe on valita kiertotapa. Yleisimmin käytetty menetelmä on Varimax. Tämä menetelmä yksinkertaistaa tekijöiden tulkintaa.
Toinen menetelmä on Quartimax. Tämä menetelmä kiertää tekijöitä minimoimaan tekijöiden lukumäärä. Se yksinkertaistaa havaitun muuttujan tulkintaa.
Seuraava menetelmä on Equamax, joka on yhdistelmä kahdesta edellä mainitusta menetelmästä.
Napsauttamalla valintaikkunaa “Asetukset” voit hallita puuttuvia arvoja
Ennen kuin tallennat tulokset tietojoukkoon, suorita ensin tekijäanalyysi ja tarkista oletukset ja varmista, että tulokset ovat merkityksellisiä ja hyödyllisiä.

Klusterianalyysi vs. tekijäanalyysi

Sekä klusterianalyysi että tekijäanalyysi ovat ohjaamatonta oppimismenetelmää, jota käytetään datan segmentointiin. Monet tutkijat, jotka ovat uusia tällä alalla, kokevat klusterianalyysin ja tekijäanalyysin olevan samanlaiset. Se voi näyttää samanlaiselta, mutta ne eroavat monin tavoin. Erot klusterianalyysin ja tekijäanalyysin välillä on lueteltu alla

Tavoite

Klusterin ja tekijäanalyysin tavoite ovat erilaiset. Klusterianalyysin tavoitteena on jakaa havainnot homogeenisiin ja erillisiin ryhmiin. Faktorianalyysi puolestaan selittää arvojen samanlaisuudesta johtuvien muuttujien homogeenisuuden.

Monimutkaisuus

Monimutkaisuus on toinen tekijä, jolla klusteri ja tekijäanalyysi eroavat toisistaan. Tietojen koko vaikuttaa analyysiin eri tavalla. Jos datan koko on liian suuri, siitä tulee laskennallisesti vaikeasti klusterianalyysissä.

Ratkaisu

Ratkaisu ongelmaan on enemmän tai vähemmän samanlainen sekä tekijä- että klusterianalyysissä. Mutta tekijäanalyysi tarjoaa tutkijalle paremman ratkaisun parempana. Klusterianalyysi ei tuota parhainta tulosta, koska kaikki klusterianalyysin algoritmit ovat laskennallisesti tehottomia.

Sovellukset

Faktorianalyysiä ja klusterianalyysiä sovelletaan toisin kuin todellisessa tiedossa. Faktorianalyysi soveltuu monimutkaisten mallien yksinkertaistamiseen. Se vähentää suuren joukon muuttujia paljon pienemmäksi tekijäjoukkoksi. Tutkija voi kehittää joukon hypoteesia ja suorittaa tekijäanalyysin vahvistaakseen tai kieltääksesi tämän hypoteesin.

Klusterianalyysi sopii luokittelemaan kohteita tiettyjen kriteerien perusteella. Tutkija voi mitata ryhmän tiettyjä piirteitä ja jakaa ne erityisiin luokkiin klusterianalyysin avulla.

On myös paljon muita eroja, jotka mainitaan alla

Klusterianalyysi yrittää ryhmitellä tapauksia, kun taas tekijäanalyysi yrittää ryhmitellä piirteitä.
Klusterianalyysillä löydetään pienempiä tapausryhmiä, jotka edustavat koko tietoa. Faktorianalyysillä löydetään pienempi ryhmä ominaisuuksia, jotka edustavat tietojoukon alkuperäisiä piirteitä.
Tärkein osa klusterianalyysiä on klustereiden löytäminen. Pohjimmiltaan klusterointimenetelmät jaetaan kahteen osaan - agglomeroiva menetelmä ja osiointimenetelmä. Agglomeratiivinen menetelmä alkaa jokaisella tapauksella omassa klusterissaan ja loppuu, kun kriteeri saavutetaan. Ositusmenetelmä alkaa kaikista tapauksista yhdessä klusterissa.
Faktorianalyysillä selvitetään tietojoukon taustalla oleva rakenne.

johtopäätös

Toivottavasti tämä artikkeli olisi auttanut sinua ymmärtämään klusterianalyysin ja tekijäanalyysin perusteet ja näiden kahden erot.

Aiheeseen liittyvät kurssit: -

Klusterianalyysikurssi

Esittelyssä paras vertailu Cluster v / s -tekijäanalyysiin

Sisällysluettelo:

Mikä on klusterianalyysi

Klusterianalyysin tavoite

Klusterityypit

Klusterianalyysin oletukset

Klusterianalyysin vaiheet

Klusterianalyysi SPSS: ssä

Klusterianalyysin kriitikot

Mikä on tekijäanalyysi?

Tekijäanalyysin tavoitteet

Faktorianalyysin oletukset

Faktorisoinnin tyypit

Tekijäanalyysin perusteet

Eigenvalue-kriteerit

Scree Plot -kriteerit

Prosenttiosuus varianssikriteereistä

Merkitystestikriteerit

Faktorianalyysi SPSS: ssä

Klusterianalyysi vs. tekijäanalyysi

Tavoite

Monimutkaisuus

Ratkaisu

Sovellukset

johtopäätös

10 parasta PowerShell-haastattelua koskevaa kysymystä ja vastausta (päivitetty vuodelle 2019)

PowerShell-merkkijonotoiminnot - Eri merkkijono-toiminnot esimerkillä

Powershell vs. Bash - Kumpi on parempi (infografian kanssa)

PowerShell vs. CMD - Kumpi on parempi (infografian kanssa)

PowerShell ForEach Loop - Kuinka ForEach Loop toimii PowerShellissä?

Mikä on Bridge? - Opas termeihin ja sillan käyttökohteisiin

Mikä on BPO? - Taidot ja tarpeet - BPO: n edut ja tyypit

Mikä on puskurin ylivuoto? - Puskurin ylivuodon ehkäisy ja hyökkäykset

Mikä on liiketalous? - Kuinka se toimii - Soveltamisala ja taidot - Etu

Mikä on CATIA - Opi CATIA: n peruskäsitteet ja edut

JSP vs. JSF - 5 hyödyllisintä eroa, jotka sinun pitäisi tietää

JSP vs. JavaScript - Selvitä 9 parasta hämmästyttävää eroa

JSP vs. Servlet - Tutustu JSP: n ja Servletin viiden suurimpaan eroon

JSP vs PHP - 8 hyödyllinen vertailu, jonka sinun pitäisi oppia

JTable Java: lla - JTablen rakentajat, menetelmät ja ohjelma Java-ohjelmassa