2016.09.13 Rではじめよう![モダン]なデータ分析 第5回 青空文庫のテキストマイニングをRMeCabパッケージでやってみた 松村優哉(著者)、匿名知的集団ホクソエム(著者) RMeCabパッケージを使った青空文庫のテキストマイニングを行い、芥川龍之介と太宰治の作品を判別します。サポートベクトルマシンによる著者判別・チューニングまですべてをRで行います。 1. はじめに テキストマイニング(Text Mining)とは、テキストを対象にしたデータマイニングの理論や技術の総称です。 一般にデータマイニングを行うためにはデータが必要になりますが、テキストマイニングやそれを文学作品の分析に応用した計量言語学の分野では文章データに加えて、しばしばコーパスが用いられます。 コーパスとは、書き言葉や話し言葉をジャンルなどを考慮した上で網羅的に収録したデータベースのことを指します。 また、日本