タグ

purrrとLDAに関するmahler-5のブックマーク (1)

  • [R] トピックモデル(LDA)を用いた大量文書の教師なし分類 - Qiita

    はじめに テキストマイニングの手法、トピックモデルを用いて文書の自動分類に挑戦します。 理論的な部分はこちらの。 先人の拵えた偉大なパッケージ群を活用させてもらい、Rでの実装部分を中心に書いてみたいと思います。 自分の振り返りためにも、困ったポイント、未解決ポイント含めて書いてるので、かなり回りくどいかもしれませんがご了承ください。 トピックモデルとは テキストマイニングではネット上のブログやニュースなど、多量の文書を取り扱うことが多いですが、トピックモデルを用いることによって、そういった文書を教師なし学習で分類することができます。 ざっくりとしたイメージですが、「文書中に出現する単語の出現確率を推定するモデル」ということ。スポーツなら「サッカー」「野球」「バレーボール」のような単語が出現しやすく、料理なら「レシピ」「献立」「まな板」みたいな単語がきっと多く出てくるのはイメージがわきやす

    [R] トピックモデル(LDA)を用いた大量文書の教師なし分類 - Qiita
  • 1