Johdatus tietojen esikäsittelyyn koneoppimisessa

Tietojen esikäsittely koneoppimisessa on tapa muuntaa tiedot raakamuodosta paljon muotoiltuksi, käyttökelvommaksi tai halutuksi muotoksi. Se on olennainen tehtävä koneoppimisessa, jonka suorittaa tietojen tutkija. Koska kerätyt tiedot ovat raa'assa muodossa, mallin kouluttaminen sitä käyttämällä ei välttämättä ole mahdollista. On tärkeää käsitellä tämä raakadata huolellisesti, jotta siitä voidaan tehdä oikea tulkinta ja välttää lopulta mahdolliset negatiiviset tulokset ennusteessa. Lyhyesti sanottuna, oppimisalgoritmimme laatu riippuu suuresti siitä, minkä tyyppisestä tietojoukosta me syöttimme mallia, joten tietojen esikäsittelyä käytetään ylläpitämään tätä laatua.

Mallin kouluttamiseen kerätty tieto on peräisin useista lähteistä. Nämä kerätyt tiedot ovat yleensä raa'assa muodossaan, ts. Niissä voi olla ääniä, kuten puuttuvat arvot, ja asiaankuuluvia tietoja, numeroita merkkijonomuodossa jne., Tai ne voivat olla jäsentämättä. Tietojen esikäsittely lisää koneoppimismallien tehokkuutta ja tarkkuutta. Koska se auttaa poistamaan nämä kohinat ja tietojoukon ja antaa aineistolle merkityksen

Kuusi erilaista vaihetta, jotka liittyvät koneoppimiseen

Seuraavassa on kuusi erilaista vaihetta, jotka liittyvät koneoppimiseen tietojen esikäsittelyn suorittamiseksi:

Vaihe 1: Tuo kirjastoja

Vaihe 2: Tuo tiedot

Vaihe 3: puuttuvien arvojen tarkistaminen

Vaihe 4: Luokkakohtaisten tietojen tarkistaminen

Vaihe 5: Ominaisuuksien skaalaus

Vaihe 6: Tietojen jakaminen koulutus-, validointi- ja arviointijoukkoihin

Ymmärretään jokainen näistä vaiheista yksityiskohtaisesti:

1. Tuo kirjastoja

Aivan ensimmäinen askel on tuoda joitain tärkeistä kirjastoista, joita tietojen esikäsittelyssä vaaditaan. Kirjasto on kokoelma moduuleja, joita voidaan kutsua ja käyttää. Pythonissa meillä on paljon kirjastoja, joista on apua tietojen esikäsittelyssä.

Muutama seuraavista python-kirjastoista on:

  • Numpy: Käytettiin enimmäkseen kirjastoa koneoppimisen monimutkaisen matemaattisen laskennan toteuttamiseen tai käyttämiseen. Se on hyödyllinen suoritettaessa operaatio moniulotteisissa ryhmissä.
  • Pandas : Se on avoimen lähteen kirjasto, joka tarjoaa korkean suorituskyvyn ja helppokäyttöiset tietorakenteet ja tietojen analysointityökalut pythonissa. Se on suunniteltu siten, että suhteiden ja merkityn tietojen käsittely on helppoa ja intuitiivista.
  • Matplotlib: Se on pythonin tarjoama visualisointikirjasto 2D- kuvaajille tai taulukolle. Se on rakennettu numpy-taulukkoon ja suunniteltu toimimaan laajemman Scipy-pinon kanssa. Tietojoukkojen visualisointi on hyödyllinen tilanteessa, jossa on käytettävissä suurta tietoa. Matplot lib: ssä käytettävissä olevat tontit ovat viiva, palkki, sironta, histogrammi jne.
  • Seaborn: Se on myös pythonin antama visualisointikirjasto. Se tarjoaa korkean tason rajapinnan houkuttelevien ja informatiivisten tilastollisten kuvaajien piirtämiseen.

2. Tuo tietojoukko

Kun kirjastot on tuotu, seuraava askel on ladata kerätyt tiedot. Panda-kirjastoa käytetään näiden tietoaineistojen tuomiseen. Useimmiten tietojoukot ovat saatavilla CSV-muodossa, koska ne ovat pienikokoisia, mikä tekee siitä nopean käsittelyn. Joten, CSV-tiedoston lataaminen pandan kirjaston read_csv-toiminnolla. Erilaiset muut tietokokonaisuuden muodot, joita voidaan nähdä

Kun tietojoukko on ladattu, meidän on tarkistettava se ja etsittävä melua. Tätä varten meidän on luotava ominaisuusmatriisi X ja havaintovektori Y suhteessa X: ään.

3. Puuttuvien arvojen tarkistaminen

Kun olet luonut ominaisuusmatriisin, saatat löytää joitain puuttuvia arvoja. Jos emme käsittele sitä, se voi aiheuttaa ongelmia harjoittelun aikana.

Puuttuvien arvojen käsittelemiseksi on kaksi tapaa:

  1. Poista koko puuttuvan arvon sisältävä rivi, mutta voi olla, että menetät joitain tärkeitä tietoja. Tämä voi olla hyvä lähestymistapa, jos tietoaineiston koko on suuri.
  2. Jos numeerisella sarakkeella puuttuu arvo, voit estimoida arvon ottamalla keskiarvon, mediaanin, tilan jne.

4. Luokkien tietojen tarkistaminen

Tietojoukon tietojen on oltava numeerisessa muodossa, jotta ne voidaan laskea. Koska koneoppimallit sisältävät monimutkaisia ​​matemaattisia laskelmia, emme voi syöttää niille ei-numeerista arvoa. Joten, on tärkeää muuntaa kaikki tekstiarvot numeerisiksi arvoiksi. LabelEncoder () -luokkaa käytetään näiden kategoristen arvojen muuntamiseksi numeerisiksi arvoiksi.

5. Ominaisuuksien skaalaus

Raakadatan arvot vaihtelevat erittäin suuresti, ja se voi johtaa mallin harhaanjohtamiseen tai saattaa johtaa laskennallisten kustannusten nousuun. Joten on tärkeää normalisoida ne. Ominaisuuksien skaalaaminen on tekniikka, jota käytetään datan arvon tuomiseen pienemmälle alueelle.

Ominaisuuksien skaalaamiseen käytetyt menetelmät ovat:

  • Skaala (min-max normalisointi)
  • Keskimääräinen normalisointi
  • Standardointi (Z-pisteen normalisointi)
  • Skaalaus yksikköpituuteen

6. Tietojen jakaminen koulutus-, validointi- ja arviointijoukkoihin

Lopuksi meidän on jaettava tietomme kolmeen eri joukkoon, harjoitusjoukkoon mallin kouluttamiseksi, validointijoukkoon mallimme tarkkuuden tarkistamiseksi ja lopuksi testisarjasta mallimme suorituskyvyn testaamiseksi yleisillä tiedoilla. Ennen tietokokonaisuuden jakamista on tärkeää sekoittaa tietojoukko vääristymien välttämiseksi. Ihanteellinen suhde tietojoukon jakamiseen on 60:20:20 eli 60% harjoitusjoukona, 20% testi- ja validointijoukkona. Voit jakaa tietojoukon käyttämällä sklearn.model_selection -sovelluksen train_test_split kahdesti. Kerran jakaa tietojoukon juna- ja validointijoukkoon ja sitten jakaa jäljellä olevan junarekisterin juna- ja testijoukkoon.

Johtopäätös - tietojen esikäsittely koneoppimisessa

Tietojen esikäsittely on jotain, joka vaatii harjoittelua. Se ei ole kuin yksinkertainen tietorakenne, jossa opit ja käytät suoraan ongelman ratkaisemiseksi. Jotta saat hyvät tiedot tietojoukon puhdistamisesta tai tietojoukon visualisoinnista, sinun on työskenneltävä eri tietojoukkojen kanssa.

Mitä enemmän käytät näitä tekniikoita, sitä paremmin ymmärrät siitä. Tämä oli yleinen idea siitä, kuinka tietojenkäsittelyllä on tärkeä rooli koneoppimisessa. Samanaikaisesti olemme nähneet vaiheet, joita tarvitaan tietojen esikäsittelyyn. Joten seuraavan kerran ennen mallin kouluttamista kerättyjä tietoja käyttämällä, suorita tietojen esikäsittely.

Suositellut artikkelit

Tämä on opas tietojen esikäsittelyyn koneoppimisessa. Tässä keskustellaan johdannosta, kuusi erilaista koneoppimiseen liittyvää vaihetta. Voit myös käydä läpi muiden ehdotettujen artikkeleidemme saadaksesi lisätietoja -

  1. Keinotekoisen älykkyyden merkitys
  2. Internet-tekniikka
  3. PL / SQL-tietotyypit
  4. Pesän tietotyypit
  5. R-tietotyypit

Luokka: