Johdatus datatieteen algoritmeihin

Korkean tason kuvaus keskeisistä algoritmeista, joita käytetään datatieteessä. Kuten jo tiedät, datatiede on tutkimusala, jossa päätökset tehdään datasta saatujen käsitysten perusteella klassisten sääntöpohjaisten determinististen lähestymistapojen sijasta. Koneoppimistehtävä voidaan yleensä jakaa kolmeen osaan

  • Tietojen hankkiminen ja liiketoimintaongelman kartoittaminen,
  • Koneoppimistekniikoiden soveltaminen ja suorituskykymittarin noudattaminen
  • Testaa ja asentaa malli

Koko tämän elinkaaren aikana käytämme erilaisia ​​tietotekniikan algoritmeja käsiteltävän tehtävän ratkaisemiseksi. Tässä artikkelissa jaamme yleisimmin käytetyt algoritmit oppimistyyppiensä perusteella ja käymme niistä korkean tason keskustelun.

Tietotekniikan algoritmien tyypit

Oppimismenetelmien perusteella voimme yksinkertaisesti jakaa koneoppimis- tai tietojenkäsittelyalgoritmit seuraaviin tyyppeihin

  1. Ohjatut algoritmit
  2. Valvomatta algoritmit

1. Ohjatut algoritmit

Kuten nimestä voi päätellä, ohjatut algoritmit ovat luokka koneoppimisalgoritmeja, joissa malli koulutetaan merkityn datan kanssa. Esimerkiksi historiallisten tietojen perusteella haluat ennustaa, että asiakas laiminlyö lainan vai ei. Leimatun datan esikäsittelyn ja ominaisuuksien suunnittelun jälkeen valvotut algoritmit koulutetaan strukturoidun datan yli ja testataan uudessa tietopisteessä tai tässä tapauksessa lainan laiminlyönnin ennustamiseksi. Sukellaan suosituimpiin valvottuihin koneoppimisalgoritmeihin.

  • K Lähin naapurit

K lähimmät naapurit (KNN) on yksi yksinkertaisimmista, mutta tehokkaimmista koneoppimisalgoritmeista. Se on valvottu algoritmi, jossa luokittelu tehdään k lähimmän tietopisteen perusteella. KNN: n ajatuksena on, että samanlaiset pisteet on ryhmitelty toisiinsa, mittaamalla lähimpien datapisteiden ominaisuudet, voimme luokitella testitiedot. Esimerkiksi ratkaisemme standardiluokitusongelmaa, jossa haluamme ennustaa, että datapiste kuuluu luokkaan A tai luokkaan B. Otetaan k = 3, nyt testataan 3 lähintä testidatapisteen datapistettä, jos niistä kaksi kuuluu luokkaan A julistaa testitietopisteeksi luokka A, muuten luokka B. K: n oikea arvo saadaan ristiinvalidoinnin avulla. Sillä on lineaarinen ajan monimutkaisuus, joten sitä ei voida käyttää alhaisen viiveen sovelluksiin.

  • Lineaarinen regressio

Lineaarinen regressio on valvottu datatieteellinen algoritmi.

lähtö:

Muuttuja on jatkuva. Ajatuksena on löytää hyperkone, jossa maksimipistemäärä on hypertasossa. Esimerkiksi sateen määrän ennustaminen on tavanomainen regressio-ongelma, jossa voidaan käyttää lineaarista regressiota. Lineaarinen regressio olettaa, että riippumattomien ja riippuvien muuttujien välinen suhde on lineaarinen ja monikollineaarisuutta on hyvin vähän tai ei ollenkaan.

  • Logistinen regressio

Vaikka nimi kertoo regression, logistinen regressio on valvottu luokittelualgoritmi.

lähtö:

Geometrinen intuitio on, että voimme erottaa eri luokkamerkinnät lineaarisen päätöksenrajan avulla. Logistisen regression lähtömuuttuja on kategorinen. Huomaa, että emme voi käyttää keskimääräistä neliövirhettä kustannusfunktiona logistiselle regressiolle, koska se ei ole kupera logistisessa regressiossa.

  • Tuki Vector Machine

Logistisessa regressiossa päämottomme oli löytää erottava lineaarinen pinta.

lähtö:

Voimme katsoa tukivektorikoneen tämän idean jatkeeksi, kun meidän on löydettävä marginaalin maksimoiva hypertaso. Mutta mikä on marginaali ?. Vektorille W (päätöksentekopinta, jonka meidän on keksittävä) piirrämme kaksi yhdensuuntaista viivaa molemmille puolille. Näiden kahden viivan välistä etäisyyttä kutsutaan marginaaliksi. SVM olettaa, että tiedot ovat lineaarisesti erotettavissa. Vaikka voimme käyttää SVM: ää epälineaariseen dataan myös käyttämällä ytimen temppua.

  • Päätöspuu

Päätöspuu on sisäkkäinen If-Else-pohjainen luokitin, joka käyttää päätöksentekoon puumaista kuvaajarakennetta. Päätöspuut ovat erittäin suosittuja ja yksi käytetyimmistä ohjatuista koneoppimisalgoritmeista koko tietojenkäsittelytieteen alueella. Se tarjoaa paremman vakauden ja tarkkuuden useimmissa tapauksissa verrattuna muihin valvottuihin algoritmeihin ja kestävä poikkeaville. Päätöspuun lähtömuuttuja on yleensä kategorinen, mutta sitä voidaan käyttää myös regressio-ongelmien ratkaisemiseen.

  • yhtyeet

Yhtyeet ovat suosittu tietotekniikan algoritmien luokka, jossa useita malleja käytetään yhdessä paremman suorituskyvyn saavuttamiseksi. Jos olet perehtynyt Kaggleen (google-alusta tietokonetieteellisissä haasteissa harjoitteluun ja kilpailemiseen), löydät useimmat voittajaratkaisut käyttäessään jonkinlaisia ​​ryhmiä.

Voimme karkeasti jakaa ryhmät seuraaviin luokkiin

  • pussitus
  • tehostaminen
  • pinoaminen
  • CSS

Satunnainen metsä, gradientinkorotuksen päätöksentekopuut ovat esimerkkejä suosituista ryhmäalgoritmeista.

2. Valvomatta algoritmit

Valvomattomia algoritmeja käytetään tehtäviin, joissa tietoja ei ole merkitty. Valvomattomien algoritmien suosituin tapaus on klusterointi. Klusteroinnin tehtävänä on ryhmitellä samanlaisia ​​datapisteitä ilman manuaalista interventiota. Keskustelemme tässä joitain suosituista valvomattomista koneoppimisalgoritmeista

  • K tarkoittaa

K Means on satunnaistettu valvomaton algoritmi, jota käytetään klusterointiin. K Means noudattaa alla olevia vaiheita

1.Initioi K-pisteet satunnaisesti (c1, c2..ck)

2. Jokaisessa tietojoukon pisteessä (Xi)

Valitse lähin Ci (i = 1, 2, 3..k)

Lisää Xi Ci: iin

3. Laske keskikohta uudelleen käyttämällä oikeita mittareita (ts. Klusterin sisäistä etäisyyttä)

4, toista vaihe (2) (3), kunnes ne konvergoituvat

  • K tarkoittaa ++

K-välineiden alustusvaihe on puhtaasti satunnainen ja alustamiseen perustuen ryhmittely muuttuu rajusti. K tarkoittaa ++ ratkaisee tämän ongelman alustamalla k todennäköisyystieteellisellä tavalla puhtaan satunnaistamisen sijaan. K tarkoittaa ++ on vakaampaa kuin klassinen K tarkoittaa.

  • K Medoids:

K-medoidit on myös K-keinoihin perustuva klusterointialgoritmi. Tärkein ero näiden kahden välillä on K: n keskikohdat, joita ei välttämättä ole tietoaineistossa, mikä ei ole K-medoidien kohdalla. K-medoidit tarjoavat klusterien paremman tulkittavuuden. K tarkoittaa minimoi kokonaisruudun virheen, kun taas K medoidit minimoivat pisteiden välisen eroavuuden.

johtopäätös

Tässä artikkelissa keskustelimme suosituimmista tietotekniikan alalla käytetyistä koneoppimisalgoritmeista. Kaikkien näiden jälkeen mieleesi saattaa tulla kysymys: ' Mikä algoritmi on paras? ' Tietysti täällä ei ole voittajaa. Se riippuu yksinomaan käsillä olevasta tehtävästä ja liiketoiminnan vaatimuksista. Paras käytäntö alkaa aina yksinkertaisimmalta algoritmilta ja lisää monimutkaisuutta vähitellen.

Suositellut artikkelit

Tämä on opas Data Science algoritmeihin. Täällä olemme keskustelleet tietojen tiedealgoritmien ja kahden tyyppisten tietotiedealgoritmien yleiskatsauksesta. Voit myös käydä annettujen artikkeleidemme läpi oppiaksesi lisää-

  1. Data Science Platform
  2. Data Science Kielet
  3. Luokittelualgoritmit
  4. Tietojen louhinnan algoritmit
  5. Ensemble-oppimisen eniten käytettyjä tekniikoita
  6. Yksinkertaiset tavat päätöksentekopuun luomiseen
  7. Tietotekniikan elinkaaren täydellinen opas

Luokka: