Johdanto K-välineen klusterointialgoritmiin?

K- tarkoittaa klusterointia kuuluu ohjaamattomaan oppimisalgoritmiin. Sitä käytetään, kun tietoja ei ole määritelty ryhmissä tai luokissa, ts. Leimaamattomia tietoja. Tämän klusterointialgoritmin tavoitteena on etsiä ja löytää ryhmiä datasta, missä muuttuja K edustaa ryhmien lukumäärää.

K-ryhmän ymmärtäminen tarkoittaa klusterointialgoritmia

Tämä algoritmi on iteratiivinen algoritmi, joka jakaa tietojoukon ominaisuuksiensa perusteella K-määrään ennalta määriteltyjä päällekkäisiä erillisiä klustereita tai alaryhmiä. Se tekee klusterien tietopisteet mahdollisimman samanlaisiksi ja yrittää myös pitää klusterit mahdollisimman pitkälle. Se allokoi datapisteet klusterille, jos klusterin keskikohdan ja datapisteiden välisen neliöetäisyyden summa on vähintään siinä tapauksessa, että klusterin keskikohta on klusterissa olevien datapisteiden aritmeettinen keskiarvo. Rypäleen pienempi variaatio johtaa samanlaisiin tai homogeenisiin datapisteisiin klusterissa.

Kuinka K-ryhmän klusterointialgoritmi toimii?

K- tarkoittaa klusterointialgoritmia tarvitsee seuraavat syötteet:

  • K = alaryhmien tai klusterien lukumäärä
  • Näyte tai harjoitusjoukko = (x 1, x 2, x 3, ……… x n )

Oletetaan nyt, että meillä on tietojoukko, jota ei ole merkitty, ja meidän on jaettava se klustereihin.

Nyt meidän on löydettävä klusterien lukumäärä. Tämä voidaan tehdä kahdella menetelmällä:

  • Kyynärpään menetelmä.
  • Tarkoitusmenetelmä.

Keskustelemme niistä lyhyesti:

Kyynärpään menetelmä

Tässä menetelmässä käyrä piirretään ”neliöiden summan sisällä” (WSS) ja klustereiden lukumäärän välille. Piirretty käyrä muistuttaa ihmisen käsivartta. Sitä kutsutaan kyynärpäämenetelmäksi, koska kyynärpään piste käyrässä antaa meille optimaalisen määrän klustereita. Kaaviossa tai käyrässä kyynärpään jälkeen WSS-arvo muuttuu hyvin hitaasti, joten kyynärpään on katsottava antavan klustereiden lopullisen arvon.

Tarkoitus-Based

Tässä menetelmässä tiedot jaetaan eri mittareiden perusteella ja sen jälkeen arvioidaan, kuinka hyvin se suoriutui kyseisessä tapauksessa. Esimerkiksi paitojen järjestely kauppakeskuksen miesten vaatteiden osastolla tehdään koon perustein. Se voidaan tehdä hinnan ja myös tuotemerkkien perusteella. Sopivin olisi valittava antamaan optimaalinen joukko klustereita eli K-arvo.

Nyt voimme palata takaisin annettuun tietojoukkoomme. Voimme laskea klusterien lukumäärän eli K: n arvon millä tahansa edellä mainituista menetelmistä.

Kuinka käyttää yllä olevia menetelmiä?

Katsotaanpa nyt toteutusprosessia:

Vaihe 1: Alustus

Alusta ensin kaikki satunnaispisteet, joita kutsutaan klusterin keskikohdiksi. Alustettaessa on huolehdittava siitä, että klusterin keskikohdat ovat pienempiä kuin harjoitusdatapisteiden lukumäärä. Tämä algoritmi on iteratiivinen algoritmi, joten seuraavat kaksi vaihetta suoritetaan iteratiivisesti.

Vaihe 2: klusterin määritys

Alustuksen jälkeen kaikki datapisteet kuljetetaan ja kaikkien keskipisteiden ja datapisteiden välinen etäisyys lasketaan. Nyt klusterit muodostuisivat riippuen minimietäisyydestä keskikohdista. Tässä esimerkissä data on jaettu kahteen klusteriin.

Vaihe 3: Centroidin liikuttaminen

Koska yllä olevassa vaiheessa muodostettuja klustereita ei ole optimoitu, meidän on muodostettava optimoidut klusterit. Tätä varten meidän on siirrettävä centroidit iteratiivisesti uuteen sijaintiin. Ota yhden klusterin datapisteet, laske niiden keskiarvo ja siirrä sitten klusterin keskipiste uuteen sijaintiin. Toista sama vaihe kaikille muille klustereille.

Vaihe 4: Optimointi

Edellä mainitut kaksi vaihetta tehdään toistuvasti, kunnes keskikohdat lakkaavat liikkumasta, ts. Ne eivät enää muuta asemansa ja ovat muuttuneet staattisiksi. Kun tämä on tehty, k- tarkoittaa algoritmia kutsutaan konvergoituneeksi.

Vaihe 5: Lähentyminen

Nyt tämä algoritmi on yhdentynyt ja erilliset klusterit muodostuvat ja ovat selvästi näkyvissä. Tämä algoritmi voi antaa erilaisia ​​tuloksia riippuen siitä, kuinka klusterit alustettiin ensimmäisessä vaiheessa.

K-välineiden klusterointialgoritmin sovellukset

  • Markkinoiden segmentointi
  • Asiakirjaryhmittely
  • Kuvan segmentointi
  • Kuvien pakkaus
  • Vektorikvantisointi
  • Ryhmäanalyysi
  • Ominaisuuksien oppiminen tai sanakirjaopiskelu
  • Rikoksille alttiiden alueiden tunnistaminen
  • Vakuutuspetosten havaitseminen
  • Julkisen liikenteen tietojen analyysi
  • IT-omaisuuden klusterointi
  • Asiakassegmentointi
  • Syöpää koskevien tietojen tunnistaminen
  • Käytetään hakukoneissa
  • Huumetoiminnan ennustaminen

K-keinojen klusterointialgoritmin edut

  • Se on nopea
  • lujatekoinen
  • Helppo ymmärtää
  • Suhteellisen tehokas
  • Jos tietojoukot ovat erillisiä, saadaan parhaat tulokset
  • Tuottaa tiukempia klustereita
  • Kun centroideja lasketaan uudelleen, klusteri muuttuu.
  • Joustava
  • Helppo tulkita
  • Parempi laskennallinen kustannus
  • Parantaa tarkkuutta
  • Toimii paremmin pallomaisten klustereiden kanssa

K-keinojen klusterointialgoritmin haitat

  • Tarvitaan etukäteen erittely klusterikeskusten lukumäärälle
  • Jos on olemassa kaksi päällekkäistä dataa, sitä ei voida erottaa, eikä se voi kertoa, että klustereita on kaksi
  • Datan erilaisella esittämisellä saavutetut tulokset ovat myös erilaisia
  • Euklidinen etäisyys voi painottaa tekijöitä epätasaisesti
  • Se antaa neliövirhetoiminnon paikallisen optiman
  • Joskus keskuksen valitseminen satunnaisesti ei voi antaa hedelmällisiä tuloksia
  • Voidaan käyttää vain, jos merkitys on määritelty
  • Poikkeavia ja meluisia tietoja ei voida käsitellä
  • Älä toimi epälineaarisen tietojoukon kanssa
  • Puuttuu johdonmukaisuudesta
  • Herkkä mittakaavalle
  • Jos esiintyy erittäin suuria tietojoukkoja, tietokone voi kaatua.
  • Ennustekysymykset

Suositellut artikkelit

Tämä on ollut opas K-Means-klusterointialgoritmiin. Tässä keskustelimme K-Means-klusterointialgoritmin toiminnasta, sovelluksista, eduista ja haitoista. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -

  1. Mikä on hermoverkot?
  2. Mikä on tiedon louhinta? | Tietojen louhinnan rooli
  3. Tiedonhankinnan haastattelukysymys
  4. Koneoppiminen vs. hermoverkko
  5. Klusterointi koneoppimisessa

Luokka: