Tekstin louhinta vs. tekstianalyysi - mikä on parempi

Sisällysluettelo:

Anonim

Eroja tekstin louhinnan ja tekstianalyysien välillä

Strukturoitua tietoa on ollut siellä 1900-luvun alusta lähtien, mutta se, joka teki tekstien louhinnan ja tekstianalyysin erityisen erityiseksi, on se, että tiedon hyödyntäminen jäsentämättömästä tiedosta (luonnollinen kielen käsittely). Kun pystymme muuntamaan tämän jäsentämättömän tekstin puoliksi rakenteelliseksi tai jäsenneltyksi tiedoksi, on mahdollista käyttää kaikkia tiedon louhintaalgoritmeja ex. Tilastolliset ja koneoppimisalgoritmit.

Jopa Donald Trump pystyi hyödyntämään tietoja ja muuntamaan ne tiedoiksi, jotka auttoivat häntä voittamaan Yhdysvaltain presidentinvaalit, pohjimmiltaan hän ei tehnyt sitä, mitä alaiset tekivät. Siellä on erittäin hyvä artikkeli http://fivethirtyeight.com/features/the-real-story-of-2016/, jonka avulla voit käydä läpi sen.

Monet yritykset ovat alkaneet käyttää tekstin louhintaan hyödyllisiä syötteitä saatavilla olevasta tekstistä. Esimerkiksi tuoteperustainen yritys voi käyttää twitter-tietoja / Facebook-tietoja tietääkseen, kuinka hyvin tai huono heidän tuotteesi menee ulos maailmassa käyttämällä Sentimental-ohjelmaa analyysi. Alkuaikoina prosessointi käytti paljon aikaa, päiviä, itse asiassa prosessoimaan tai jopa toteuttamaan koneoppimisalgoritmeja, mutta ottamalla käyttöön työkaluja, kuten Hadoop, Azure, KNIME ja muut suuret tietojenkäsittelyohjelmat tekstien louhinta on saavuttanut valtavan suosion markkinoilla. Yksi parhaimmista esimerkkeistä assosiaatiokaivosta käyttävästä tekstianalyysistä on Amazonin suositusmoottori, jossa se antaa asiakkailleen automaattisesti suosituksia, mitä muut ihmiset ostivat ostaessaan tiettyä tuotetta.

Yksi suurimmista haasteista, kun käytetään tekstin kaivostyökaluja sellaiseen, joka ei ole digitaalisessa muodossa / tietokoneella, on prosessin tekeminen. Vanhat arkistot ja monet tärkeät asiakirjat, jotka ovat saatavilla vain papereilla, luetaan joskus OCR: n (Optical Character Recognition) kautta, jossa on paljon virheitä, ja joskus tiedot syötetään manuaalisesti, mikä on altis inhimillisille virheille. Syy, jota haluamme, on se, että pystymme saamaan aikaan muita oivalluksia, jotka eivät ole näkyviä perinteisestä lukemisesta.

Jotkut tekstin louhinnan vaiheet ovat alla

  • Tiedonhaku
  • Tietojen valmistelu ja puhdistaminen
  • jakautuminen
  • tokenization
  • Stop-sananumerot ja välimerkkien poistaminen
  • Sanan vartalo
  • Muunna pieniksi kirjaimiksi
  • POS-merkinnät
  • Luo tekstikorpus
  • Term-Document matrix

Ja alla on tekstianalyysin vaiheet, jotka otetaan käyttöön Term Term Matrix -matriisin laatimisen jälkeen

  • Mallintaminen (Tämä voi sisältää päätelmämallit, ennustavat mallit tai määräävät mallit)
  • Koulutus ja mallien arviointi
  • Näiden mallien soveltaminen
  • Mallien visualisointi

Ainoa asia, joka on aina muistettava, on, että tekstin louhinta edeltää tekstin analysointia.

Head to Head -vertailu tekstin louhinnan ja tekstianalyysin välillä (infografia)

Alla on 5 vertailua ennakoivan tekstin louhinnan ja tekstianalyysien välillä

Tärkeimmät erot tekstin louhinnan ja tekstianalyysien välillä

Erotellaan tekstin louhinta ja tekstianalytiikka vaiheen perusteella, joka liittyy harvoihin sovelluksiin, joissa näitä sekä tekstin louhintaa että tekstianalytiikkaa käytetään:

• Asiakirjojen luokittelu
Tässä vaiheessa, joka sisältyy tekstin louhintaan, ovat tokenisaatio, tulkitseminen ja lemmatisointi, lopettamis- ja välimerkien poistaminen ja viimeinkin termitaajuusmatriisin tai asiakirjan taajuusmatriisien laskeminen.

Tokenisaatio - Koko datan (korpuksen) jakaminen pienemmiksi palasiksi tai pienemmiksi sanoiksi, yleensä yksittäisiksi sanoiksi, tunnetaan tokenisaationa (N-Gram-malli tai sanasäkkimalli)

Symmerointi ja Lemmatization - Esimerkiksi sanat suuret, isot ja suuret kaikki tarkoittavat samaa ja muodostavat päällekkäisen datan, jotta tiedot pidettäisiin tarpeettomina tekemällä lemmatisointia linkittämällä sanat juursanan kanssa.
Stop-sanojen poistaminen - Stop-sanoja ei käytetä analyysissä, joka sisältää sanoja kuten on, the ja jne.

Termien esiintymistiheydet - Tämä on matriisi, jolla on rivin otsikot asiakirjan niminä ja sarakkeet termeinä (sanat) ja tiedot ovat kyseisissä asiakirjoissa esiintyvien sanojen taajuus. Alla on esimerkki kuvakaappauksesta.

Yllä olevassa kuvassa meillä on määritteet riveissä (sanat) ja asiakirjan numero sarakkeina ja sanan taajuus tiedoina.

Nyt tekstin analysoinnissa on seuraavat vaiheet, jotka on harkittava

Klusterointi - Käyttämällä K-tarkoittaa klusterointia / hermoverkkoja / CART (luokittelu- ja regressiopuut) tai mitä tahansa muuta klusterointialgoritmia, pystymme nyt ryhmittelemään asiakirjat syntyneiden ominaisuuksien perusteella (ominaisuudet tässä ovat sanoja).

Arviointi ja visualisointi - Piirrämme klusterin kahteen ulottuvuuteen ja katsomme, miten nämä klusterit eroavat toisistaan. Jos malli pitää hyvää testitietoa, voimme ottaa sen käyttöön tuotannossa ja se on hyvä asiakirjaluokitin, joka luokittelee kaikki uudet dokumentit, jotka annetaan syötteinä, ja se vain nimeäisi klusterin, johon se kuuluu.

• Aistien analyysi

Yksi markkinoiden tehokkaimmista työkaluista, jotka auttavat käsittelemään twitter-tietoja / Facebook-tietoja tai mitä tahansa muuta tietoa, jota voidaan käyttää johtamaan sentimentti siitä, ovatko tunteet hyviä, huonoja vai neutraaleja tietylle prosessille / tuotteelle tai henkilö on tunneanalyysi.
Tietolähde on helposti saatavissa twitter-sovellusliittymällä / Facebook-sovellusliittymällä, jotta saadaan twiitit / kommentit / tykkäykset jne. Twiittiin tai yrityksen viestiin. Suurin ongelma on, että näitä tietoja on vaikea jäsentää. Tiedot sisältäisivät myös erilaisia ​​mainoksia, ja yrityksessä työskentelevän tiedemiehen on varmistettava, että tiedot valitaan oikealla tavalla, jotta vain valitut tweetit / viestit käyvät läpi esikäsittelyvaiheissa.
Muita työkaluja ovat Web-kaavinta, tämä on osa tekstin louhintaa, jossa romutat tiedot verkkosivustoilta indeksointirobotien avulla.
Tekstin louhintaprosessi pysyy samana kuin tokenisointi, tulkitseminen ja lemmatisointi, poistamalla hakusanat ja välimerkit ja viimeinkin laskemalla termi frekvenssimatriisi tai asiakirjan taajuusmatriisit, mutta ainoa ero syntyy sentimentti-analyysin soveltamisessa.
Yleensä annamme pisteet jokaiselle viestille / twiittiin. Yleensä, kun ostat tuotteen ja arvostelun, jos sinulle annetaan myös mahdollisuus antaa tähdellä arvostelu ja lähettää kommentti. Google, Amazon ja muut verkkosivustot käyttävät tähtiä arvioimaan kommenttia. Sen lisäksi, että he ottavat myös twiitit / viestit ja antavat ihmisille arvioida sen hyväksi / huonoksi / neutraaliksi ja yhdistämällä nämä kaksi pistemäärää, he tuottavat uuden pisteet mihin tahansa tweettiin / viestiin.
Sentiment-analyysin visualisointi voidaan tehdä käyttämällä sanapilviä, taajuustermi-matriisin pylväskaavioita.

• Kaivosanalyysin yhdistys

Yksi sovelluksista, jolla jotkut kaverit työskentelivät, oli ”huumeiden aiheuttamien haittavaikutusten todennäköisyysmalli”, jossa voidaan tarkistaa, mitkä haittavaikutukset voivat aiheuttaa muita haittavaikutuksia, jos hän ottaa jotain tiettyä lääkettä.
Tekstin louhinta sisälsi alla olevan työnkulun

Yllä olevasta kuvasta voidaan nähdä, että tietojen louhintaan asti kaikki vaiheet kuuluvat tekstin louhintaan, joka identifioi tietolähde, erottaa ne ja valmistelee sitten analyysivalmiiksi.

Sitten yhdistyskaivostoiminnan soveltamiseksi meillä on alla oleva malli
Kuten voimme nähdä, että jotkut nuolimerkinnät osoittavat kohti oranssia ympyrää ja sitten yksi nuoli osoittaa mitä tahansa tiettyä ADE: tä (haittavaikutus). Jos otamme kuvan kuvan vasemmasta alakulmasta, löydämme apatiaa, asteniaa ja epänormaali tunne johtaa syyllisyyteen, hyvin voidaan sanoa, että se on selvää, se on selvää, koska ihmisenä voit tulkita ja suhteuttaa, mutta tässä kone tulkitsee sitä ja antaa meille seuraavan haittatapahtuman.

Esimerkki sanasta pilvi on alla

Vertailutaulukko tekstin louhinnan ja tekstianalyysin välillä

Alla on pisteluettelot, kuvaavat vertailut Tekstin louhinta vs. Tekstianalyysi:

Vertailun perusteetTekstin louhintaTekstianalyysi

merkitys

Tekstin louhinta on pohjimmiltaan siivoustietojen puhdistamista, jotta ne olisivat käytettävissä tekstianalyysissäTekstianalyysi soveltaa tilastollisia ja koneoppimistekniikoita, joiden avulla voidaan ennustaa / määrätä tai päätellä mitä tahansa tekstiä louhituista tiedoista.

Konsepti

Tekstin louhinta on työkalu, joka auttaa tietojen puhdistamisessa.Tekstianalyysi on algoritmien soveltamisprosessi

puitteet

Jos puhumme kehyksestä, tekstin louhinta on samanlainen kuin ETL (Extract Transform Load), mikä tarkoittaa, että pystytään lisäämään tietoja tietokantaan, nämä vaiheet suoritetaanTekstisisäisen analyysin avulla näitä tietoja käytetään arvojen lisäämiseen liiketoimintaan, luodaan esimerkiksi sanapilviä, kahden gramman taajuuskaavioita, joissakin tapauksissa N-grammaa

Kieli

Python ja R ovat tunnetuimmat tekstin louhinnan työkalut siellä tekstin louhintaanTekstianalyysissä, kun tiedot ovat saatavilla tietokantatasolla, voimme käyttää mitä tahansa siellä olevaa analysointiohjelmistoa, mukaan lukien python ja R. Muita ohjelmistoja ovat Power BI, Azure, KNIME jne.

esimerkit

  • tekstin luokittelu
  • tekstin klusterointi
  • konseptin / kokonaisuuden poiminta
  • tunteiden analyysi
  • asiakirjan yhteenveto
  • rakeisten taksonomioiden tuottaminen
  • Kokonaisuussuhteiden mallintaminen
  • Assosiaatioanalyysi
  • visualisointi
  • ennustava analytiikka
  • tiedonhaku
  • lexical analyysi
  • hahmontunnistus
  • koodaus / merkintä

Johtopäätös -tekstin louhinta vs. tekstianalyysi

Tekstin louhinnan ja tekstianalyysin tulevaisuus ei koske vain englantia, mutta myös kehitystä on tapahtunut jatkuvasti. Kielityökalujen käytön lisäksi muiden englanninkielten kieltä ei myöskään harkita analyysiin.

Tekstin louhinnan laajuus ja tulevaisuus kasvavat, koska muiden kielten analysoimiseen on rajoitetusti resursseja.

Tekstianalytiikalla on hyvin laaja valikoima, jota sitä voidaan soveltaa. Esimerkkejä teollisuudenaloista, joilla sitä voidaan käyttää, ovat:

  • Sosiaalisen median seuranta
  • Farmaseuttiset / biotekniset sovellukset
  • Liiketoiminnan ja markkinoinnin sovellukset

Suositeltava artikkeli

Tämä on opas tekstin louhinnan ja tekstianalyysin eroihin, niiden merkitykseen, pään vertailuun, avainerot, vertailutaulukko ja päätelmät. Voit myös katsoa seuraavia artikkeleita saadaksesi lisätietoja -

  1. Azure Paas vs Iaas - selvitä erot
  2. Tietojen louhinnasta ja tekstin louhinnasta opitut 3 parasta asiaa
  3. Tietää parhaiten 7 eroa tiedonlouhinnan ja data-analyysin välillä
  4. Liiketoimintatieto ja koneoppiminen - kumpi on parempi
  5. Ennustava analyysi vs. tiedon louhinta - kumpi on hyödyllisempi