[B! purrr][LDA] mahler-5のブックマーク

mahler-5 id:mahler-5

purrrとLDAに関するmahler-5のブックマーク (1)

[R] トピックモデル(LDA)を用いた大量文書の教師なし分類 - Qiita
はじめにテキストマイニングの手法、トピックモデルを用いて文書の自動分類に挑戦します。理論的な部分はこちらの本。先人の拵えた偉大なパッケージ群を活用させてもらい、Rでの実装部分を中心に書いてみたいと思います。自分の振り返りためにも、困ったポイント、未解決ポイント含めて書いてるので、かなり回りくどいかもしれませんがご了承ください。トピックモデルとはテキストマイニングではネット上のブログやニュースなど、多量の文書を取り扱うことが多いですが、トピックモデルを用いることによって、そういった文書を教師なし学習で分類することができます。ざっくりとしたイメージですが、「文書中に出現する単語の出現確率を推定するモデル」ということ。スポーツなら「サッカー」「野球」「バレーボール」のような単語が出現しやすく、料理なら「レシピ」「献立」「まな板」みたいな単語がきっと多く出てくるのはイメージがわきやす
mahler-5 2019/04/11
R

purrr

LDA

トピックモデル
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx