Yleiskatsaus hyperparametrikoneoppimisesta

Jokaiseen malliin tarvitsemme joitain parametrejä, jotka auttavat tarjoamaan perustan ongelman ratkaisulle / analyysille ja mallin arvioinnille. Jotkut näistä parametreistä on opittava tiedoista, ja osa meidän on määriteltävä loppupäästämme nimenomaisesti. Parametreja, jotka voidaan oppia datasta määrittelemättä niitä nimenomaisesti, kutsutaan malliparametreiksi. Parametri, jonka käyttäjä määrittelee nimenomaisesti, on Hyperparametrit. Hyperparametrit ovat myös vain mallin parametrejä, mutta termiä hyperparametrit käytetään koneoppimisessa, jotta ne voidaan helposti erottaa, eikä niitä pidä sekoittaa tietojoukosta opittujen malliparametrien kanssa.

Mikä on hyperparametrikoneoppiminen?

Suurimmassa osassa koneoppimisen kehyksiä hyperparametrilla ei ole tarkkaa määritelmää. Nämä hyperparametrit hallitsevat mallin taustalla olevaa järjestelmää, joka ohjaa mallin ensisijaisia ​​(modaalisia) parametreja. Yritetään ymmärtää hyperparametrit seuraavan esimerkin avulla.

  • Viulun virittäminen on erittäin tärkeää oppimisvaiheessa, koska silloin luodaan yhteyksiä eri aistien välillä. Korvat, sormet ja silmät oppivat kaikki viulun samanaikaisesti. Nyt alussa totuttelu viulun äänen ääneen aiheuttaa huonon äänimaun, mikä pilaa heidän kokemuksensa rakastumisesta viulun oppimisprosessiin.
  • Siksi viulun virittäminen voi todella auttaa yhtä viulun oppimisprosessissa. Samoin hyperparametri on eräänlainen koneoppimallin viritys oikean suunnan saamiseksi.
  • Hyperparametrit määritetään yleensä ennen koneoppimisalgoritmin soveltamista tietojoukkoon.
  • Seuraavaksi seuraava tehtävä on, minkä pitäisi olla hyperparametri ja minkä pitäisi olla sen arvo. Koska on tiedettävä, mitkä jouset ovat tarpeen virittämiseksi ja kuinka virittää viulu ennen virittämistä. Sama koskee hyperparametreja, meidän on määriteltävä, mitkä hyperparametrit ja minkä pitäisi olla sen arvo, pohjimmiltaan se riippuu jokaisesta tehtävästä ja jokaisesta tietojoukosta.
  • Tämän ymmärtämiseksi otamme mallin optimoinnin näkökulma.
  • Koneoppimallin toteutuksessa mallin optimoinnilla on tärkeä rooli. Koneoppimismenetelmiä on paljon, jotka on omistettu yksinomaan koneoppimismallin optimointiin. Yleisesti arvellaan, että mallin optimoimiseksi meidän on muokattava koodia siten, että virhe voidaan minimoida.
  • On kuitenkin piilotettuja elementtejä, jotka vaikuttavat koneen oppimisen optimointiin, joka on mallin ulkopuolella ja jolla on suuri vaikutus mallin käyttäytymiseen. Näihin piilotettuihin elementteihin viitataan hyperparamereina, nämä ovat kriittisiä komponentteja minkä tahansa koneoppimismallin optimoimiseksi.
  • Hyperparametrit ovat hienosäätimiä / asetuksia, jotka säätelevät mallin käyttäytymistä. Nämä hyperparametrit määritetään mallin ulkopuolella, mutta niillä on suora yhteys mallin suorituskykyyn. Hyperparametrejä voidaan pitää mallina ortogonaalisina.
  • Hyperparametrin määrittelykriteerit ovat erittäin joustavat ja abstraktit. Varmasti on joitain hyperparametreja, kuten piilotettujen kerrosten lukumäärä, mallin oppimisnopeus, jotka ovat vakiintuneita, ja myös joitain asetuksia, joita voidaan pitää tietyn mallin hyperparametrina, kuten mallin kapasiteetin hallinta.
  • Algoritmissa on mahdollisuuksia ylittää malli, jos algoritmit oppivat suoraan asetusten kautta. Kuten on selvää, hyperparametreja ei opita / viritetä harjoitusjoukon kautta, joten testi- tai validointijoukkoa käytetään hyperparametrien valintaan. Broadwayssa asetamme erilaiset hyperparametriarvot, mikä parhaiten toimii testi- tai validointijoukon kanssa, katsotaan parhaimmaksi hyperparametriksi.

Hyperparametrien luokat

Erityyppisille tietojoukkoille ja mallin mukaan meillä voi olla erilaisia ​​hyperparametreja mallin suorituskyvyn parantamiseksi. Yleisesti ottaen hyperparametrit voidaan jakaa kahteen luokkaan.

  • Hyperparametri optimointiin
  • Tiettyjen mallien hyperparametrit

Keskustelemme jokaisesta näistä.

1. Optimoinnin hyperparametrit

Kuten nimestä voi päätellä, näitä hyperparametreja käytetään mallin optimointiin.

  • Oppimisnopeus

Tämä hyperparametri määrittää, kuinka paljon äskettäin hankitut tiedot ohittavat käytettävissä olevat vanhat tiedot. Jos tämän hyperparametrin arvo on korkea, sitä korkeampi oppimisnopeus ei optimoi mallia kunnolla, koska on olemassa mahdollisuuksia, että se hyppää yli minimien. Toisaalta, jos oppimisastetta pidetään hyvin vähemmän, lähentyminen on hyvin hidasta.

Oppimisnopeudella on ratkaiseva merkitys mallin suorituskyvyn optimoinnissa, koska joissakin tapauksissa malleissa on satoja parametreja (malliparametreja), joilla on virhekäyrä, oppimisnopeus päättää ristiintarkistuksen taajuuden kaikkien parametrien kanssa. Lisäksi on vaikea löytää paikallisia virhekäyrien minimiä, koska niillä on yleensä epäsäännölliset käyrät.

  • Erän koko

Oppimisprosessin nopeuttamiseksi koulutusjoukko on jaettu eri eriin. Jos kyseessä on mallin harjoittelun stokastinen menettely, pieni erä koulutetaan, arvioidaan ja lisääntyy uudelleen, jotta kaikkien hyperparametrien arvot voidaan säätää, tämä toistetaan koko harjoitusjoukolle.

Jos eräkoko on suurempi kuin se, se pidentää oppimisaikaa ja vaatii enemmän muistia prosessoidaksesi matriisin kertolaskua varten. Jos erän koko on pienempi, virhelaskennassa on enemmän melua.

  • Aikakausien lukumäärä

Aikakausi edustaa kokonaisprosessia tietojen opiskeluun koneoppimisessa. Kausilla on erittäin tärkeä rooli iteratiivisessa oppimisprosessissa.

Validointivirhe otetaan huomioon määritettäessä oikea aikakausien lukumäärä. Aikakausien lukumäärää voidaan lisätä niin kauan kuin validointivirhe vähenee. Jos validointivirhe ei parane peräkkäisinä aikakausina, se on signaali pysäyttää kasvava aikakausien lukumäärä. Se tunnetaan myös nimellä varhainen pysähtyminen.

2. Hyperparametrit tietyille malleille

Jotkut hyperparametrit ovat mukana itse mallin rakenteessa. Jotkut näistä ovat seuraavat.

  • Piilotettujen yksiköiden lukumäärä

On elintärkeää määritellä useita hermoverkkojen piilotettuja yksiköitä syvän oppimisen malleissa. Tätä hyperparametria käytetään mallin oppimiskyvyn määrittelemiseen. monimutkaisille toiminnoille meidän on määritettävä useita piilotettuja yksiköitä, mutta muista, että sen ei pitäisi olla mallin liiallinen.

  • Kerrosten lukumäärä

On selvää, että neuroverkko, jossa on 3 kerrosta, antaa paremman suorituskyvyn kuin 2 kerros. Yli 3: n lisääminen ei auta niin paljon hermoverkoissa. CNN: n tapauksessa yhä suurempi määrä kerroksia tekee mallista paremman.

johtopäätös

Hyperparametrit määritetään nimenomaisesti ennen koneoppimisalgoritmin soveltamista tietojoukkoon. Hyperparamereilla määritellään mallin korkeamman tason monimutkaisuus ja oppimiskyky. Hyperparametrit voivat olla myös mallin asetuksia. Jotkut hyperparametrit on määritelty mallien optimoimiseksi (erän koko, oppimisnopeus jne.) Ja jotkut ovat erityisiä malleille (piilotettujen kerrosten lukumäärä jne.).

Suositellut artikkelit

Tämä on opas hyppyparametrien koneoppimiseen. Tässä keskustellaan yleiskatsauksesta ja siitä, mikä on hyperparametrikoneoppiminen sen luokkien kanssa. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. Johdanto koneoppimiseen
  2. Valvomaton koneoppiminen
  3. Koneoppimisen algoritmien tyypit
  4. Koneoppimisen sovellukset
  5. Neuraaliverkkojen toteutus
  6. Kuusi parhainta vertailua CNN: n ja RNN: n välillä

Luokka: