Johdatus klusterointimenetelmiin

Tässä artikkelissa on yleiskatsaus erilaisista klusterointimenetelmistä, joita käytetään tiedon louhintatekniikoissa erilaisilla periaatteilla. Klusterointi on joukko tietoobjekteja, jotka on järjestetty eri loogisiin ryhmiin. Ryhmitetään samanlaiset tietoyksiköt ja määritetään samanlaiset tietoyksiköt yksittäisiin klusteriin. Klusterointi suoritetaan suurissa tietokokonaisuuksissa ilman ohjausta. Tämän aikana suoritamme osion datajoukosta ryhmiin. Klusteroinnin rakenne esitetään seuraavasti alajoukoilla. C = c1, c2 … c n . Koska klusterointiryhmillä on samanlaisia ​​tavoitteita, jotkut toimenpiteet on ryhdyttävä klusterointimenetelmiin etäisyyden ja samankaltaisuuden mittaamiseksi. Klusterointimenetelmät perustuvat todennäköisyysmalleihin. Tietojen louhinta vaatii klusteroinnin skaalattavuuden vuoksi käsittelemään korkeita tietokantoja, käsittelemään moniulotteista tilaa, käsittelemään virheellistä tietoa ja kohinaa.

Selitä klusterointimenetelmät?

Tämä klusterointimenetelmä auttaa ryhmittelemään arvokasta tietoa klusteriin ja valitsee siitä sopivat tulokset, jotka perustuvat eri tekniikoihin. Esimerkiksi tiedonhaussa kyselyn tulokset on ryhmitelty pieniin klustereihin, ja jokaisella klusterilla on merkityksettömiä tuloksia. Klusterointitekniikoilla ne ryhmitellään samanlaisiin luokkiin ja kukin luokka jaetaan alaluokkiin avustamaan kyselyiden tuotosta. Klusterointimenetelmiä on erityyppisiä

  • Hierarkkiset menetelmät
  • Ositusmenetelmät
  • Tiheys-pohjainen
  • Mallipohjainen klusterointi
  • Ruudukkoon perustuva malli

Seuraava on yleiskatsaus tietojen louhintaan ja tekoälyyn käytettyihin tekniikoihin.

1. Hierarkkinen menetelmä

Tämä menetelmä luo klusterin osittamalla joko ylhäältä alas ja alhaalta ylöspäin. Molemmat näistä lähestymistavoista tuottavat dendrogrammin, jotka tekevät yhteyksistä niiden välillä. Dendrogrammi on puumainen muoto, joka pitää yllä sulautuneiden klusterien sekvenssin. Hierarkkisilla menetelmillä tuotetaan useita osioita samankaltaisuustasojen suhteen. Ne on jaettu agglomeratiivisiin hierarkkisiin klusterointeihin ja jakaviin hierarkkisiin klusterointeihin. Tässä luodaan klusteripuu yhdistämistekniikoita käyttämällä. Jakamiseen käytetään jakoprosessia, yhdistämiseen käytetään taajamaa. Agglomeratiiviseen klusterointiin kuuluu:

  1. Aluksi otetaan kaikki datapisteet ja pidetään niitä yksittäisinä klusterina ylhäältä alaspäin. Nämä klusterit yhdistetään, kunnes olemme saaneet halutut tulokset.
  2. Seuraavat kaksi samanlaista klusteria on ryhmitelty toisiinsa muodostaen valtavan yksittäisen klusterin.
  3. Lasketaan jälleen läheisyys valtavassa klusterissa ja yhdistä samanlaiset klusterit.
  4. Viimeinen vaihe sisältää kaikkien saatujen klusterien yhdistämisen kussakin vaiheessa lopullisen yksittäisen klusterin muodostamiseksi.

2. Ositusmenetelmä:

Partition päätavoite on siirtäminen. He siirtävät osiot siirtymällä klusterista toiseen, mikä tekee alkuperäisen osion. Se jakaa 'n' dataobjektit 'k' klusterimäärään. Tämä osittelumenetelmä on suositeltavampi kuin hierarkkinen malli kuviotunnistuksessa. Seuraavat perusteet on asetettu tyydyttämään tekniikat:

  • Jokaisessa klusterissa tulisi olla yksi objekti.
  • Jokainen tietoobjekti kuuluu yhteen klusteriin.

Yleisimmin käytetty osiointitekniikka on K-keskialgoritmi. Ne jakautuvat K-klustereihin, joita edustavat centroidit. Jokainen klusterikeskus lasketaan kyseisen klusterin keskiarvona ja R-toiminto visualisoi tuloksen. Tässä algoritmissa on seuraavat vaiheet:

  1. K-objektin valitseminen satunnaisesti tietojoukosta ja muodostaa alkuperäiset keskukset (keskukset)
  2. Seuraavaksi määritetään euklidinen etäisyys esineiden ja keskikohdan välillä.
  3. Keskiarvon määrittäminen jokaiselle klusterille.
  4. Centroid-päivitysvaiheet jokaiselle k-klusterille.

3. Tiheysmalli:

Tässä mallissa klusterit määritetään sijoittamalla klusteriin tiheämpiä alueita. Niiden takana oleva pääperiaate on keskittyminen kahteen parametriin: naapuruston maksimisäteeseen ja min pisteiden lukumäärään. Tiheyspohjainen malli tunnistaa erimuotoiset klusterit ja melu. Se toimii havaitsemalla kuvioita arvioimalla paikallinen sijainti ja etäisyys naapurin menetelmään, jota tässä käytetään. Tämä on DBSCAN (tiheyspohjainen paikallinen klusterointi), joka antaa kädet suurille paikkatietokannoille. Kolmen tietopisteen käyttäminen klusteroinnissa, nimittäin ydinpisteet, reunapisteet ja poikkeavat. Ensisijainen tavoite on tunnistaa klusterit ja niiden jakeluparametrit. Klusterointiprosessi pysäytetään tiheysparametrien tarpeella. Klusterien löytämiseksi on tärkeätä saada parametri Minimi ominaisuudet klusteria kohti ytimen etäisyyttä laskettaessa. Tämän mallin tarjoamat kolme erilaista työkalua ovat DBSCAN, HDBSCAN, Multi-scale.

4. Malliperusteinen klusterointi

Tämä malli yhdistää kaksi tai kolme klusteria yhdessä datanjakelusta. Tämän mallin perusajatuksena on, että data on jaettava kahteen ryhmään todennäköisyysmallin (monimuuttuja normaalijakaumat) perusteella. Tässä jokaiselle ryhmälle annetaan käsitteet tai luokka. Jokainen komponentti on määritelty tiheysfunktiolla. Parametrin löytämiseksi tässä mallissa käytetään seoksen jakautumisen sovittamiseen suurimman todennäköisyyden estimointia. Jokainen klusteri 'K' on mallinnettu Gaussin jakauman avulla kahden parametrin µ k keskiarvovektorilla ja £ k kovarianssivektorilla.

5. Ruudukkoon perustuva malli

Tässä lähestymistavassa esineitä pidetään avaruuslähtöisinä jakamalla tila rajalliseen määrään soluja ruudukon muodostamiseksi. Ristikon avulla klusterointitekniikkaa käytetään nopeampaan käsittelyyn, joka tyypillisesti riippuu soluista, ei esineistä. Vaiheet ovat:

  • Ristikkorakenteen luominen
  • Solutiheys lasketaan jokaiselle solulle
  • Lajittelumekanismin soveltaminen niiden tiheyteen.
  • Hakeminen klusterikeskuksista ja läpikulku naapurisoluista toistaaksesi prosessin.

Klusterointimenetelmien merkitys

  1. Ryhmittelymenetelmät auttavat käynnistämään paikallisen hakumenettelyn uudelleen ja poistamaan tehottomuuden. Klusterointi auttaa määrittämään datan sisäisen rakenteen.
  2. Tätä klusterointianalyysiä on käytetty mallianalyysiin, vektorin vetoalueelle.
  3. Klusterointi auttaa ymmärtämään luonnollista ryhmittelyä tietojoukossa. Niiden tarkoituksena on järkevä jakaa tiedot joihinkin loogisten ryhmien ryhmiin.
  4. Klusteroinnin laatu riippuu menetelmistä ja piilotettujen kuvioiden tunnistamisesta.
  5. Heillä on laaja rooli sovelluksissa, kuten markkinointitutkimus, verkkopäivät, joiden avulla voidaan tunnistaa samankaltaisuusmittaten kuviot, kuvankäsittely, alueellinen tutkimus.
  6. Niitä käytetään ulkopuolisissa havainnoissa luottokorttipetosten havaitsemiseksi.

johtopäätös

Klusterointia pidetään yleisenä tehtävänä ratkaista ongelma, joka muotoilee optimointitehtävän. Sillä on avainasemassa tiedon louhinnan ja datan analysoinnin alalla. Olemme nähneet erilaisia ​​klusterointimenetelmiä, jotka jakavat tietojoukon riippuen vaatimuksista. Suurin osa tutkimuksesta perustuu perinteisiin tekniikoihin, kuten K-keinoihin ja hierarkkisiin malleihin. Klusterialueita sovelletaan korkeaulotteisissa tiloissa, mikä muodostaa tutkijoiden tulevaisuuden laajuuden.

Suositeltava artikkeli

Tämä on ollut opas klusterointimenetelmiin. Tässä keskustelimme klusterointimenetelmien käsitteestä, tärkeydestä ja tekniikoista. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -

  1. Mikä on ETL?
  2. Mikä on tietotiede
  3. Mikä on Teradata?
  4. Kuusi AWS-vaihtoehtoa
  5. Klusterointi koneoppimisessa
  6. Monimuuttuja regressio
  7. Hierarkkinen ryhmittely | Agglomeratiivinen ja jakautuva klusterointi

Luokka: