タグ

テキスト解析に関するp_tanのブックマーク (3)

  • 第5回 青空文庫のテキストマイニングをRMeCabパッケージでやってみた|Tech Book Zone Manatee

    2016.09.13 Rではじめよう![モダン]なデータ分析 第5回 青空文庫のテキストマイニングをRMeCabパッケージでやってみた 松村優哉(著者)、匿名知的集団ホクソエム(著者) RMeCabパッケージを使った青空文庫のテキストマイニングを行い、芥川龍之介と太宰治の作品を判別します。サポートベクトルマシンによる著者判別・チューニングまですべてをRで行います。 1. はじめに テキストマイニング(Text Mining)とは、テキストを対象にしたデータマイニングの理論や技術の総称です。 一般にデータマイニングを行うためにはデータが必要になりますが、テキストマイニングやそれを文学作品の分析に応用した計量言語学の分野では文章データに加えて、しばしばコーパスが用いられます。 コーパスとは、書き言葉や話し言葉をジャンルなどを考慮した上で網羅的に収録したデータベースのことを指します。 また、日

    第5回 青空文庫のテキストマイニングをRMeCabパッケージでやってみた|Tech Book Zone Manatee
  • 第6回 訪日外国人の発言内容の「感情分析」を行う|Tech Book Zone Manatee

    近年増加し続けている「訪日外国人」旅行者は日でどのような物事に関心を示しているのでしょうか。SNS発言内容の「感情分析」を行うことで動向についてRと拡張パッケージを使って明らかにすることを試みます。 1. はじめに 海外から日へ訪れる「訪日外国人」旅行者の数(訪日外客数)は、近年増加をし続けています。市街地や観光地を歩けば、日語よりも海外の言語が多く聞こえてくる、ということも珍しくなくなりました。国際観光の振興を図る日政府観光局の発表では、昨年2015年の訪日外客数は過去最高の1,973万人超であり [1]、その勢いは年間2,000万人に達する見込みです。訪日外国人の国内での行動や消費の概要に関しては統計データなどを通して読み解くことができますが、その詳細は統計データからは見えにくいものです。一体彼らは日でどのような物事に関心を示しているのでしょうか。 訪日外国人の詳しい動向を知

    第6回 訪日外国人の発言内容の「感情分析」を行う|Tech Book Zone Manatee
  • モダンなRによるテキスト解析 - Qiita

    概要 すぐに使えるKNBCコーパスを対象に、モダンなRの書き方でテキスト解析したときのメモです。TF-IDFや共起頻度(ネットワーク作成)、LDAやGloVeまでをパッケージで実行しました。 - 解析済みブログコーパス 定義・設定 最初に処理で利用するライブラリの読み込みや定数・関数の定義。 library(pacman) library(widyr) # 読み込むパッケージ SET_LOAD_PACKAGE <- c("tidyverse", "Rcpp", "chunked", "tidytext", "visNetwork", "textmineR", "Matrix", "topicmodels", "LDAvis", "text2vec") # コーパスファイルの設定 SET_CORPUS_FILE <- list( DOWNLOAD_URL = "http://nlp.ist.

    モダンなRによるテキスト解析 - Qiita
  • 1