Johdanto R CSV-tiedostoihin

CSV-tiedostoja käytetään laajasti tietojen tallentamiseen taulukkomuodossa jokaisen rivin ollessa datatietue. Jotta tietoja voidaan lukea, kirjoittaa tai käsitellä R: ssä, meillä on oltava joitain tietoja käytettävissä. Tietoja voi löytää Internetistä tai ne voidaan kerätä eri lähteistä, kuten tutkimuksista. R: llä voidaan lukea, kirjoittaa ja muokata ulkoiseen ympäristöön tallennettuja tietoja. R osaa lukea ja kirjoittaa tietoja eri muodoista, kuten XML, CSV ja excel. Tässä artikkelissa nähdään, kuinka R: tä voidaan käyttää CSV-tiedostojen lukemiseen, kirjoittamiseen ja erilaisten toimintojen suorittamiseen.

CSV-tiedoston luominen R: ssä

Tässä osiossa nähdään, kuinka tietokehys voidaan luoda ja viedä CSV-tiedostoon R: ssä. Ensimmäisessä luomme tietokehyksen, joka koostuu muuttujista työntekijä ja vastaava palkka.

> df <- data.frame(Employee = c('Jonny', 'Grey', 'Mouni'),
+ Salary = c(23000, 41000, 32344))
> print (df)

Kun tietokehys on luotu, on aika käyttää R: n vientitoimintoa luodaan CSV-tiedosto R: ssä. Tietokehyksen viemiseksi CSV: hen voimme käyttää alla olevaa koodia.

> write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv', row.names = FALSE)

Yllä olevassa koodirivissä olemme toimittaneet polkuhakemiston kuuluisuudellemme ja tallentaneet tietokehyksen CSV-muodossa. Yllä olevassa tapauksessa CSV-tiedosto tallennettiin henkilökohtaiseen työpöydälleni. Tätä tiedostoa käytetään opetusohjelmassa useiden toimintojen suorittamiseen.

CSV-tiedostojen lukeminen R: ssä

Suorittaessamme analysointia R: n avulla, monissa tapauksissa meidän on luettava tiedot CSV-tiedostosta. R on erittäin luotettava CSV-tiedostoja luettaessa. Yllä olevassa esimerkissä olemme luoneet tiedoston, jota luemme lukemalla komento read.csv. Alla on esimerkki niin tehdä R: ssä.

> df <- read.csv(file="C:\\Users\\Pantar User\\Desktop\\Employee.csv", header=TRUE,
sep=", ")
> df

Yllä oleva komento lukee Employee.csv-tiedoston, joka on saatavana työpöydällä, ja näyttää sen R-studiossa. Otsikko-komento tarkoittaa, että otsikko asetetaan saataville tietojoukolle ja sep-komento tarkoittaa, että tiedot erotetaan pilkuilla.

Kirjoita CSV-tiedostot R-muotoon

Kirjoittaminen CSV-tiedostoon on yksi hyödyllisimmistä toiminnoista, joita R-analyytikolla on tarjolla. Tätä voidaan käyttää muokatun CSV-tiedoston kirjoittamiseen uuteen CSV-tiedostoon tietojen analysoimiseksi. Write.csv-komentoa käytetään tiedoston kirjoittamiseen CSV: hen.

Alla olevassa tietokehyksen koodissa df, jossa tietomme ovat saatavilla, liitettä käytetään määrittelemään, että uusi tiedosto luodaan sen sijaan, että vanhaan tiedostoon lisättäisiin tai korvataan. Lisää väärä ehdottaa uuden CSV-tiedoston luomista. Sep edustaa pilkulla erotettua kenttää.

# Writing CSV file in R
write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv' append = FALSE, sep = “, ”)

CSV-operaatiot

CSV-toiminnot vaaditaan tarkastamaan tiedot, kun ne on ladattu järjestelmään. R: llä on useita sisäänrakennettuja toimintoja tietojen todentamiseksi ja tarkastamiseksi. Nämä toiminnot tarjoavat täydelliset tiedot tietojoukosta.

Yksi yleisimmin käytetyistä komennoista on yhteenveto.

> summary(df)

Yhteenveto-komento tarjoaa meille sarakekohtaisia ​​tilastoja. Numeerinen muuttuja kuvataan tilastollisella tavalla, joka sisältää tilastolliset tulokset, kuten keskiarvo, min, mediaani ja max. Yllä olevassa esimerkissä kaksi muuttujaa, jotka ovat Työntekijä ja Palkka, on erotettu toisistaan, ja meille näytetään tilastot numeeriselle muuttujalle, joka on Palkka.

View () -komentoa käytetään avaamaan tietojoukko toisella välilehdellä ja tarkistamaan se manuaalisesti.

> View(df)

Str-toiminto antaa käyttäjille lisätietoja tietojoukon sarakkeesta. Alla olevassa esimerkissä voimme nähdä, että Työntekijä-muuttujalla on tekijä datatyyppinä ja Palkkamuuttujalla on tyyppiä int (kokonaisluku).

> str(df)

Monissa tapauksissa joudumme näkemään käytettävissä olevan rivien kokonaismäärän, jos kyseessä on iso tietojoukko, jota varten voimme käyttää nrow () -komentoa. Katso alla oleva esimerkki.

> # to show the total number of rows in the dataset
> nrow(df)

Samalla tavalla sarakkeiden kokonaismäärän näyttämiseksi voimme käyttää komentoa ncol ()

> ncol(df)

R antaa meille näyttää halutun määrän rivejä alla olevan komennon avulla. Kun heidän n rivimäärää on käytettävissä tietojoukossa, voimme määrittää näytettävän rivialueen.

> # to display first 2 rows of the data
> df(1:2, )

Dataoperaatio suoritetaan isolla aineistolla. Esimerkiksi olen ladannut NI-postinumeron avoimen lähdekoodin tietoaineiston Internetistä.

> NiPostCode <- read.csv("NIPostcodes.csv", na.strings="", header=FALSE)

Yllä olevassa tietojoukossa näemme otsikoiden nimet puuttuvat ja siellä on monia nolla-arvoja. Aineisto on puhdistettava, jotta se olisi valmis analysoitavaksi. Seuraavassa vaiheessa otsikot nimetään vastaavasti.

> # adding headers/title
> names(NiPostCode)(1) <-"OrganisationName"
> names(NiPostCode)(2) <-"Sub-buildingName"
> names(NiPostCode)(3) <-"BuildingName"
> names(NiPostCode)(4) <-"Number"
> names(NiPostCode)(5) <-"Location"
> names(NiPostCode)(6) <-"Alt Thorfare"
> names(NiPostCode)(7) <-"Secondary Thorfare"
> names(NiPostCode)(8) <-"Locality"
> names(NiPostCode)(9) <-"Townland"
> names(NiPostCode)(10) <-"Town"
> names(NiPostCode)(11) <-"County"
> names(NiPostCode)(12) <-"Postcode"
> names(NiPostCode)(13) <-"x-coordinates"
> names(NiPostCode)(14) <-"y-coordinates"
> names(NiPostCode)(15) <-"Primary Key"

Lasketaan nyt puuttuvien arvojen lukumäärä datakehyksessä ja poistetaan sitten ne vastaavasti.

> # count of all missing values
> table(is.na (NiPostCode))

Yllä olevasta komennosta näemme tyhjennysten tai NA: n kokonaismäärän datakehyksessä lähellä 5445148. Kaikkien nolla-arvojen poistaminen johtaa valtavan tietomäärän menettämiseen, joten on viisasta poistaa sarakkeet, joissa yli puolet 50% tiedoista puuttuu.

> # delete columns with more than 50% missing values
> NiPostcodes 0.5)) > (NiPostcodes)

johtopäätös

Tässä opetusohjelmassa olemme nähneet, kuinka CSV-tiedostoja voidaan luoda, lukea ja liittää käyttämällä R: n toimintoja. Olemme oppineet luomaan uuden tietojoukon R: ssä ja tuomaan sen sitten CSV-muotoon. Olemme lisäksi nähneet useita toimintoja, kuten otsikon uudelleennimeäminen ja rivien ja sarakkeiden lukumäärän laskeminen.

Suositellut artikkelit

Tämä on opas R CSV-tiedostoihin. Tässä keskustellaan CSV-tiedoston luomisesta, lukemisesta ja kirjoittamisesta R-muodossa CSV-operaatioiden kanssa. Voit myös tarkastella seuraavaa artikkelia saadaksesi lisätietoja -

  1. JSON vs. CSV
  2. Tietojen louhintaprosessi
  3. Ura data-analyysissä
  4. Excel vs CSV

Luokka: