Johdatus KNN: n algoritmiin R: ssä
RN: n KNN-algoritmissa KNN tarkoittaa K: n lähimmän naapurin algoritmia ja R on ohjelmointikieli. Sen sanotaan olevan yksinkertaisin koneoppimisalgoritmista. KNN on valvottu algoritmi, joka luokittelee datapisteet kohdeluokkaan vertaamalla ominaisuuksia lähimpään naapuriinsa.
Esimerkki: Oletetaan, että haluat luokitella kosketusnäytön ja näppäimistöpuhelimen. Molempien puhelimien erotteluun liittyy useita tekijöitä. Molempia puhelimia erottava tekijä on kuitenkin näppäimistö. Joten kun saamme datapisteen (eli puhelimen). Vertaamme sitä naapurin datapisteiden samanlaisiin ominaisuuksiin luokitellaksemme sen näppäimistöksi tai kosketuspuhelimeksi.
KNN-algoritmin ominaisuudet
Tässä tutkitaan KNN-algoritmin ominaisuuksia:
- KNN-algoritmi käyttää tulodataa ennustamaan lähtötason datapisteitä.
- Algoritmia voidaan soveltaa erilaisiin ongelmajoukkoihin.
- Tietojen luokittelussa keskitytään ominaisuuksien samankaltaisuuteen.
- KNN-algoritmi käsittelee realistista tietoa eikä tee mitään oletuksia datapisteistä.
- KNN muistaa harjoitustietojoukon sen sijaan, että olisi intuitiivinen. Voidaan myös sanoa, että sillä on laiska lähestymistapa.
- Se voi ratkaista luokittelu- ja regressio-ongelmat.
KNN - algoritmin ongelmien ratkaiseminen R: ssä
Seuraavat ongelmakohdat:
1. Luokitteluongelma
Luokittelu-ongelmassa arvot ovat erillisiä aivan kuten haluatko syödä pizzaa täytettä tai ilman. On yhteistä kantaa. KNN-algoritmi auttaa ratkaisemaan tällaisen ongelman.
2. Regressio-ongelma
Regressio-ongelma tulee kuvaan, kun meillä on riippuvainen muuttuja ja riippumaton muuttuja. Esimerkki: BMI-indeksi. Tyypillisesti jokainen rivi sisältää havainnon tai datapisteen ja esimerkin.
KNN-algoritmi R: ssä
Katsotaanpa seuraavan algoritmin vaiheita:
Vaihe 1: Lataa tulotiedot.
Vaihe 2: Alusta K lähimpien naapureiden lukumäärällä.
Vaihe 3: Tietojen laskeminen (eli etäisyys nykyisen ja lähimmän naapurin välillä)
Vaihe 4: Etäisyyden lisääminen nykyiseen tilattuun tietojoukkoon.
Vaihe 5: K-nimikkeiden poimiminen ja merkitseminen.
Vaihe 6: Palauta regressio-ongelman keskiarvo.
Vaihe 7: Palauta luokkaongelmien tila-arvo.
Muistuttaa KNN-algoritmin toteuttamisessa
- Meidän on varmistettava, että K-arvo on suurempi kuin yksi, se estää ennustettaessa tarkkaa.
- Mitä enemmän K-arvoa, sitä tarkempi ennustus voi johtua enemmistöstä.
- On edullista, että K on pariton luku. Muuten se voi johtaa tie-katkaisijaan.
KNN-pseudokoodi
Alla olevassa kaavassa edustaa muuttujia ja edustaa datapisteitä, joissa (i = 1, 2, 3….)
Set(, )
Käytä koteloita
Seuraavat ovat käyttötapaukset KNN-algoritmissa R: ssä:
1. Tuotteiden vertailu ja ostoksia koskevien suositusten auttaminen
Kun ostamme kannettavaa tietokonetta verkkokaupasta, näemme myös ostoksia koskevia suosituksia, kuten virustorjuntaohjelmien tai kaiuttimien ostamista. Tämä johtuu siitä, että kun aikaisempi asiakas ostaa kannettavan, se ostetaan enimmäkseen yhdessä viruksentorjunta- tai kaiuttimien kanssa. Koneoppiminen auttaa verkkokauppasuosituksissa.
2. Ruoansuositukset
Koneoppiminen auttaa myös aiemmin tilattuihin ruokia koskeviin suosituksiin ja ehdottaa myös ravintoloita.
Esimerkki KNN-algoritmista
Seuraavassa on esimerkkejä KNN-algoritmista:
1. Tietojen tuominen
Otetaanpa meitä tuttuja tietoja, jotka ennakoivat kaverin paitakoon pituuden ja painon avulla.
Korkeus (cm) | Paino (kg) | Koko |
140 | 58 | S |
140 | 59 | S |
140 | 63 | S |
150 | 59 | M |
152 | 60 | M |
153 | 60 | M |
154 | 61 | M |
155 | 64 | M |
156 | 64 | M |
157 | 61 | M |
160 | 62 | L |
161 | 65 | L |
162 | 62 | L |
163 | 63 | L |
163 | 66 | L |
165 | 63 | L |
165 | 64 | L |
165 | 68 | L |
2. Löydät yhtäläisyydet laskemalla etäisyys
Voimme käyttää sekä Manhattanin että Euclidean-etäisyyksiä, koska tiedot ovat jatkuvia. Laskemme etäisyyden uuden näytteen ja harjoitustietojoukon välillä, sitten löydämme K-lähimmän.
Esimerkki: Oletetaan, että 'Raj' on 165 cm korkea ja painaa 63 kg. Laskemme Euklidisen etäisyyden käyttämällä ensimmäistä havaintoa uuden näytteen kanssa: SQRT ((165-140) 2 + (63-58) 2)
3. K-lähimpien naapureiden löytäminen
Oletetaan K = 4. On 4 asiakasta, joista 3: lla oli keskikokoinen ja yhdellä iso. Paras ennuste on keskikokoinen sopii Raj.
Ero KNN: n ja K-keskiarvon välillä
Seuraava on ero:
- KNN on valvottu algoritmi (riippuvainen muuttuja), kun taas K-keskiarvo on valvomaton algoritmi (ei riippuvaa muuttujaa).
- K-keskiarvo käyttää klusterointitekniikkaa K-klusterien muodostavien datapisteiden jakamiseen.KNN käyttää K-lähimpiä naapureita luokittelemaan datapisteet ja yhdistää ne.
KNN: n edut ja haitat
Seuraavat ovat edut:
- KNN-algoritmi on monipuolinen, sitä voidaan käyttää luokittelu- ja regressio-ongelmiin.
- KNN-algoritmin rakentamiseksi ei tarvita aiempaa mallia.
- Yksinkertainen ja helppo toteuttaa.
Seuraavat ovat haitat:
- Algoritmi näytteiden lukumäärän kasvaessa (ts. Muuttujien lukumäärä)
Suositellut artikkelit
Tämä on opas KNN-algoritmiin R: ssä. Tässä keskustellaan ominaisuuksista, esimerkeistä, pseudokoodista, vaiheista, joita KNN-algoritmissa on noudatettava. Voit myös käydä läpi muiden aiheeseen liittyvien artikkeleidemme saadaksesi lisätietoja-
- Data Science algoritmit
- Mikä on geneettinen algoritmi?
- Reititysalgoritmit
- Neuraaliverkon algoritmit
- C ++ -algoritmi | Esimerkkejä C ++ -algoritmista