Johdatus KNN: n algoritmiin R: ssä

RN: n KNN-algoritmissa KNN tarkoittaa K: n lähimmän naapurin algoritmia ja R on ohjelmointikieli. Sen sanotaan olevan yksinkertaisin koneoppimisalgoritmista. KNN on valvottu algoritmi, joka luokittelee datapisteet kohdeluokkaan vertaamalla ominaisuuksia lähimpään naapuriinsa.

Esimerkki: Oletetaan, että haluat luokitella kosketusnäytön ja näppäimistöpuhelimen. Molempien puhelimien erotteluun liittyy useita tekijöitä. Molempia puhelimia erottava tekijä on kuitenkin näppäimistö. Joten kun saamme datapisteen (eli puhelimen). Vertaamme sitä naapurin datapisteiden samanlaisiin ominaisuuksiin luokitellaksemme sen näppäimistöksi tai kosketuspuhelimeksi.

KNN-algoritmin ominaisuudet

Tässä tutkitaan KNN-algoritmin ominaisuuksia:

  • KNN-algoritmi käyttää tulodataa ennustamaan lähtötason datapisteitä.
  • Algoritmia voidaan soveltaa erilaisiin ongelmajoukkoihin.
  • Tietojen luokittelussa keskitytään ominaisuuksien samankaltaisuuteen.
  • KNN-algoritmi käsittelee realistista tietoa eikä tee mitään oletuksia datapisteistä.
  • KNN muistaa harjoitustietojoukon sen sijaan, että olisi intuitiivinen. Voidaan myös sanoa, että sillä on laiska lähestymistapa.
  • Se voi ratkaista luokittelu- ja regressio-ongelmat.

KNN - algoritmin ongelmien ratkaiseminen R: ssä

Seuraavat ongelmakohdat:

1. Luokitteluongelma

Luokittelu-ongelmassa arvot ovat erillisiä aivan kuten haluatko syödä pizzaa täytettä tai ilman. On yhteistä kantaa. KNN-algoritmi auttaa ratkaisemaan tällaisen ongelman.

2. Regressio-ongelma

Regressio-ongelma tulee kuvaan, kun meillä on riippuvainen muuttuja ja riippumaton muuttuja. Esimerkki: BMI-indeksi. Tyypillisesti jokainen rivi sisältää havainnon tai datapisteen ja esimerkin.

KNN-algoritmi R: ssä

Katsotaanpa seuraavan algoritmin vaiheita:

Vaihe 1: Lataa tulotiedot.

Vaihe 2: Alusta K lähimpien naapureiden lukumäärällä.

Vaihe 3: Tietojen laskeminen (eli etäisyys nykyisen ja lähimmän naapurin välillä)

Vaihe 4: Etäisyyden lisääminen nykyiseen tilattuun tietojoukkoon.

Vaihe 5: K-nimikkeiden poimiminen ja merkitseminen.

Vaihe 6: Palauta regressio-ongelman keskiarvo.

Vaihe 7: Palauta luokkaongelmien tila-arvo.

Muistuttaa KNN-algoritmin toteuttamisessa

  • Meidän on varmistettava, että K-arvo on suurempi kuin yksi, se estää ennustettaessa tarkkaa.
  • Mitä enemmän K-arvoa, sitä tarkempi ennustus voi johtua enemmistöstä.
  • On edullista, että K on pariton luku. Muuten se voi johtaa tie-katkaisijaan.

KNN-pseudokoodi

Alla olevassa kaavassa edustaa muuttujia ja edustaa datapisteitä, joissa (i = 1, 2, 3….)

Set(, )

Käytä koteloita

Seuraavat ovat käyttötapaukset KNN-algoritmissa R: ssä:

1. Tuotteiden vertailu ja ostoksia koskevien suositusten auttaminen

Kun ostamme kannettavaa tietokonetta verkkokaupasta, näemme myös ostoksia koskevia suosituksia, kuten virustorjuntaohjelmien tai kaiuttimien ostamista. Tämä johtuu siitä, että kun aikaisempi asiakas ostaa kannettavan, se ostetaan enimmäkseen yhdessä viruksentorjunta- tai kaiuttimien kanssa. Koneoppiminen auttaa verkkokauppasuosituksissa.

2. Ruoansuositukset

Koneoppiminen auttaa myös aiemmin tilattuihin ruokia koskeviin suosituksiin ja ehdottaa myös ravintoloita.

Esimerkki KNN-algoritmista

Seuraavassa on esimerkkejä KNN-algoritmista:

1. Tietojen tuominen

Otetaanpa meitä tuttuja tietoja, jotka ennakoivat kaverin paitakoon pituuden ja painon avulla.

Korkeus (cm) Paino (kg) Koko
140 58 S
140 59 S
140 63 S
150 59 M
152 60 M
153 60 M
154 61 M
155 64 M
156 64 M
157 61 M
160 62 L
161 65 L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. Löydät yhtäläisyydet laskemalla etäisyys

Voimme käyttää sekä Manhattanin että Euclidean-etäisyyksiä, koska tiedot ovat jatkuvia. Laskemme etäisyyden uuden näytteen ja harjoitustietojoukon välillä, sitten löydämme K-lähimmän.

Esimerkki: Oletetaan, että 'Raj' on 165 cm korkea ja painaa 63 kg. Laskemme Euklidisen etäisyyden käyttämällä ensimmäistä havaintoa uuden näytteen kanssa: SQRT ((165-140) 2 + (63-58) 2)

3. K-lähimpien naapureiden löytäminen

Oletetaan K = 4. On 4 asiakasta, joista 3: lla oli keskikokoinen ja yhdellä iso. Paras ennuste on keskikokoinen sopii Raj.

Ero KNN: n ja K-keskiarvon välillä

Seuraava on ero:

  • KNN on valvottu algoritmi (riippuvainen muuttuja), kun taas K-keskiarvo on valvomaton algoritmi (ei riippuvaa muuttujaa).
  • K-keskiarvo käyttää klusterointitekniikkaa K-klusterien muodostavien datapisteiden jakamiseen.KNN käyttää K-lähimpiä naapureita luokittelemaan datapisteet ja yhdistää ne.

KNN: n edut ja haitat

Seuraavat ovat edut:

  • KNN-algoritmi on monipuolinen, sitä voidaan käyttää luokittelu- ja regressio-ongelmiin.
  • KNN-algoritmin rakentamiseksi ei tarvita aiempaa mallia.
  • Yksinkertainen ja helppo toteuttaa.

Seuraavat ovat haitat:

  • Algoritmi näytteiden lukumäärän kasvaessa (ts. Muuttujien lukumäärä)

Suositellut artikkelit

Tämä on opas KNN-algoritmiin R: ssä. Tässä keskustellaan ominaisuuksista, esimerkeistä, pseudokoodista, vaiheista, joita KNN-algoritmissa on noudatettava. Voit myös käydä läpi muiden aiheeseen liittyvien artikkeleidemme saadaksesi lisätietoja-

  1. Data Science algoritmit
  2. Mikä on geneettinen algoritmi?
  3. Reititysalgoritmit
  4. Neuraaliverkon algoritmit
  5. C ++ -algoritmi | Esimerkkejä C ++ -algoritmista

Luokka: