[R] トピックモデル(LDA)を用いた大量文書の教師なし分類 - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/YM_DSKR

4 usersがブックマークコメント

記事へのコメント1件

注目コメント
新着コメント

sh19910711 "tmパッケージ: VCorpus(DirSource(dir="xxx")))で読み込むことで、全txtデータをコーパスとして取り込むことができます / DTM: tidytext::cast_dtm()関数で、頻度表から文書単語行列（Document Term Matrix)に変換" 2019

2024/04/12 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

[R] トピックモデル(LDA)を用いた大量文書の教師なし分類 - Qiita

はじめにテキストマイニングの手法、トピックモデルを用いて文書の自動分類に挑戦します。理論的な部... はじめにテキストマイニングの手法、トピックモデルを用いて文書の自動分類に挑戦します。理論的な部分はこちらの本。先人の拵えた偉大なパッケージ群を活用させてもらい、Rでの実装部分を中心に書いてみたいと思います。自分の振り返りためにも、困ったポイント、未解決ポイント含めて書いてるので、かなり回りくどいかもしれませんがご了承ください。トピックモデルとはテキストマイニングではネット上のブログやニュースなど、多量の文書を取り扱うことが多いですが、トピックモデルを用いることによって、そういった文書を教師なし学習で分類することができます。ざっくりとしたイメージですが、「文書中に出現する単語の出現確率を推定するモデル」ということ。スポーツなら「サッカー」「野球」「バレーボール」のような単語が出現しやすく、料理なら「レシピ」「献立」「まな板」みたいな単語がきっと多く出てくるのはイメージがわきやす