タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

LDAとtopic modelに関するsleepy_yoshiのブックマーク (2)

  • Interactive Topic Modeling を読む (Hu, Boyd-Graber and Satinoff ACL2011) - 木曜不足

    9/3 の ACL 読み会で読む [Hu+ ACL11] Interactive Topic Modeling(ITM) の資料です(途中ですが力尽きましたすいません……)。 【追記】 ディリクレ木と Interactive Adding Constraints and Unassigning(←これがこの論文のキモ!) についての説明を追加しました。 【/追記】 Interactive Topic Modeling(ITM) とは 通常の LDA は教師無しであり、結果の制御は基的にできない baseball と football が同じトピックに入って欲しいと思っても、うまく分類されない場合はパラメータを変えて試行錯誤するとか、分類後にトピックをクラスタリングするか ITM は LDA に「単語AとBは同じトピックに入って欲しい」という制約を「後から」入れられるモデル Notatio

    Interactive Topic Modeling を読む (Hu, Boyd-Graber and Satinoff ACL2011) - 木曜不足
  • Regularized Latent Semantic Indexing - tsubosakaの日記

    最近勉強会で発表する予定のものと仕事関係の論文しか読んでなかったのでこのブログにはあんまり書けなかったんだけど、久々に書いてみる。 紹介する論文はSIGIR 2011のLSIを語彙数が大きい時にも効率的に並列化できるようにしたという論文[1]。 論文概要 PLSIやLDAみたいなトピックモデルは情報検索においても性能向上で重要であるが、語彙数が多い時スケールしないという問題点がある(文章数に関しては効率的な実装が知られている。例えば[2])。このためよく行われるのが語彙数を1万とかに制限する方法ですが、情報検索への応用を考えるとこのアプローチは問題がある(文章分類やクラスタリングへの応用であればこれで問題ない)。 このため著者らはRLSIという方法を提案した。これにより160万文章、語彙数700万のデータセットに対して16台のマシンでトピック数500のとき1時間半で処理できた(おそらく1イ

    Regularized Latent Semantic Indexing - tsubosakaの日記
  • 1