Regressio vs. luokittelu - Tärkeimmät keskeiset erot ja vertailu

Ero regression ja luokituksen välillä

Keskustelemme tässä artikkelissa Regressio vs. luokittelu keskeisimmät erot regression ja luokituksen välillä. Koneoppiminen on jaettu laajasti kahteen tyyppiin: ohjattu koneoppiminen ja ohjaamaton koneoppiminen. Ohjatussa koneoppimisessa meillä on tiedossa oleva lähtöarvo tietojoukossa ja koulutamme niiden perusteella mallia ja käytämme sitä ennustamiseen, kun taas valvomattomassa koneoppimisessa meillä ei ole tunnettuja lähtöarvojoukkoja. Ennen kuin erotamme luokituksen ja regression, ymmärrämme, mitä tämä terminologia tarkoittaa koneoppimisessa. Regressio on algoritmi ohjatussa koneoppimisessa, joka voidaan kouluttaa ennustamaan todellisten lukujen tulokset. Luokittelu on algoritmi ohjatussa koneoppimisessa, joka koulutetaan tunnistamaan kategoriat ja ennustamaan, mihin luokkaan ne kuuluvat uusille arvoille.

Head to Head -vertailu regression ja luokituksen välillä (infografia)

Alla on viisi parhainta vertailua regression ja luokituksen välillä :

Keskeiset erot regression ja luokituksen välillä

Keskustelemme muutamista keskeisistä eroista regression ja luokituksen välillä seuraavissa kohdissa:

Luokittelussa on kyse etiketin tai luokan ennustamisesta. Luokittelualgoritmi luokittelee vaaditun tietojoukon yhdeksi kahdesta tai useammasta merkinnästä. Algoritmi, joka käsittelee kahta luokkaa tai luokkaa, tunnetaan binaariluokittelijana ja jos luokkia on enemmän kuin kaksi, sitä voidaan kutsua moniluokkaiseksi luokittelualgoritmiksi.
Regressio tarkoittaa optimaalisen funktion löytämistä jatkuvien todellisten arvojen datan tunnistamiseksi ja kyseisen määrän ennustamiseksi. Regressio, jossa on useita muuttujia syötteinä tai ominaisuuksia algoritmin kouluttamiseksi, tunnetaan monimuuttujaregressio-ongelmana. Jos regressio-ongelmassa syötearvot ovat riippuvaisia tai järjestetään ajan mukaan, niin se kutsutaan aikasarjan ennusteongelmaksi.
Luokittelumalli ennustaa kuitenkin myös jatkuvan arvon, joka on todennäköisyys tapahtua kyseiseen lähtöluokkaan kuuluva tapahtuma. Tässä tapahtuman todennäköisyys edustaa tiettyyn luokkaan kuuluvan tietyn esimerkin todennäköisyyttä. Ennustettu todennäköisyysarvo voidaan muuntaa luokka-arvoksi valitsemalla luokkamerkki, jolla on suurin todennäköisyys.
Ymmärtäkäämme se paremmin näkemällä esimerkki. Oletetaan, että koulutamme mallia ennustamaan, onko henkilöllä syöpää vai ei, perustuen johonkin ominaisuuteen. Jos saamme todennäköisyyden, että syövän henkilöllä on 0, 8 ja jolla ei ole syöpää, 0, 2, voimme muuntaa 0, 8-todennäköisyyden luokkamerkinnöksi, jolla on syöpä, koska sillä on suurin todennäköisyys.
Kuten edellä luokittelussa mainittiin, kuinka hyvä luokittelumalli toimii, laskemme tarkkuuden. Katsotaanpa kuinka laskenta suoritetaan, luokituksen tarkkuus voidaan suorittaa laskemalla oikeiden ennusteiden suhde kokonaisennusteisiin kerrottuna 100: lla. Jos ennusteita on tehty 50 ja niistä 10 on oikeita ja 40 ovat vääriä, tarkkuus on 20 %.

Tarkkuus = (Oikeiden ennusteiden lukumäärä / Ennusteiden kokonaismäärä) * (100)

Tarkkuus = (10/50) * (100)
Tarkkuus = 20%

Kuten edellä regressiossa mainittiin, laskeaksesi kuinka hyvä regressiomalli suorittaa suosituimman tavan, on laskea neliövirhe (RMSE). Katsotaanpa kuinka laskenta suoritetaan.

Regressiomallin ennustettu arvo on 4, 9, kun taas todellinen arvo on 5, 3.

Regressiomallin ennustettu arvo on 2, 3, kun taas todellinen arvo on 2, 1.

Regressiomallin ennustettu arvo on 3, 4, kun taas todellinen arvo on 2, 9.

Nyt Root tarkoittaa, että neliövirhe voidaan laskea kaavaa käyttämällä.

Virhe neliössä on (5, 3–4, 9) 2 = 0, 16, (2, 1–2, 3) 2 = 0, 04, (2, 9–3, 4) 2 = 0, 25

Virheen neliön keskiarvo = 0, 45 / 3 = 0, 15

Alkuperäinen neliövirhe = neliöjuuri 0, 15 = 0, 38

Se on RMSE = 0, 38. Mallin tehokkuuden laskemiseksi on olemassa monia muita menetelmiä, mutta RMSE on eniten käytetty, koska RMSE tarjoaa virhepistemäärän samoissa yksiköissä kuin ennustettu arvo.

esimerkkejä:

Useimpien tietotekniikan insinöörien on vaikea valita regression ja luokituksen välillä uransa alkuvaiheessa. Jotta se olisi helppoa, katsotaan, miltä luokitteluongelmat näyttävät ja miltä regressio-ongelmat näyttävät,

Luokittelu

Ennustetaan, sataako huomenna vai ei.
Ennustettavan henkilön pitäisi ostaa se hyvä tai olla tekemättä voittoa.
Ennakoidaan, onko henkilöllä jokin sairaus vai ei.

Jos huomaat, että jokaisessa tilanteessa täällä voi olla joko kyllä tai ei lähtöarvon ennustettavana arvona.

Regressio

Maan hinnan ennustaminen.
Osakkeiden hinnan ennustaminen.

Jos huomaat jokaisessa tilanteessa, useimmilla niistä on numeerinen arvo ennustetulla tuotossa.

Regression ja luokituksen vertailutaulukko

Seuraavassa taulukossa on yhteenveto regression ja luokituksen vertailuista :

Parametri	Regressio	Luokittelu
Kartoitustoiminnon tyyppi	Näissä algoritmeissa karttafunktio valitaan tyypiltään, joka voi kohdistaa arvot jatkuvalle ulostulolle.	Näissä algoritmeissa valitaan funktio, joka pystyy kohdistamaan arvot ennalta määriteltyihin luokkiin.
Sisältää ennustamisen	Tämän tyyppisille algoritmeille ennustettu data kuuluu jatkuvien arvojen luokkaan. (Kuten 23, 34, 45, 67, 28)	Tämän tyyppiselle algoritmin ennustetulle tiedolle kuuluu erillisten arvojen luokkaan. (Kuten joko Kyllä tai Ei, kuuluu A, B tai C).
Laskentamenetelmä	Juurikeskiarvon neliövirhe lasketaan tietojoukon parhaan sopivuuden tunnistamiseksi.	Tarkkuus lasketaan tietojoukon parhaan sopivuuden tunnistamiseksi.
Ennustetun tiedon luonne	Ennustetun tiedon luonne on tilattu. (Eli arvot ennustetaan olevan jossain järjestyksessä).	Ennustetun tiedon luonne on järjestämätön. (Toisin sanoen ennustetut arvot eivät ole missään järjestyksessä).
algoritmit	Tukee vektoriregressiota ja regressiopuita tunnetaan myös nimellä Random Forest, jotka ovat joitain suosittuja esimerkkejä regressioalgoritmeista.	Naiivit Bayes, päätöksentekopuut ja K Lähimmät naapurit ovat joitain suosituimpia esimerkkejä luokitusalgoritmeista.

johtopäätös

Nämä ovat eräitä tärkeimmistä eroista luokittelun ja regression välillä. Joissakin tapauksissa regressiossa ennustetut jatkuvat lähtöarvot voidaan ryhmitellä tarroihin ja muuttaa luokittelumalleiksi. Joten meidän on ymmärrettävä selvästi, kumpi valitaan tilanteen perusteella ja mitä haluamme ennustetun tuloksen olevan.

Suositellut artikkelit

Tämä on opas suurimpaan eroon regression ja luokituksen välillä. Tässä keskustellaan myös regressio vs. luokittelu-avaineroista infografioiden ja vertailutaulukon kanssa. Saatat myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -