タグ

topic modelに関するsleepy_yoshiのブックマーク (6)

  • H24:Introduction to Statistical Topic Models

    統計数理研究所 H24年度公開講座 「確率的トピックモデル」サポートページ 講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド 持橋分 (2013/1/15) [PDF] (12MB) 石黒分 (2013/1/16) [PDF] ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm-0.1.tar.gz, dm-0.2.tar.gz PLSI (Probabilistic Latent Semantic Indexing) plsi-0.03.tar.gz (外部サイト) LDA (Latent Dirichlet Allocation) lda-0.1.tar.gz 参考文献 「私のブックマーク: Latent Topic Model (潜在的トピックモデ

  • Wikispaces

    We are sorry, but the site you are looking for no longer exists Wikispaces was founded in 2005 and has since been used by educators, companies and individuals across the globe. Unfortunately, the time has come where we have had to make the difficult business decision to end the Wikispaces service. We first announced the site closure in January 2018, through a site-wide banner that appeared to all

  • 私のブックマーク: Latent Topic Model (潜在的トピックモデル)

    東京大学 情報基盤センター助教 佐藤 一誠 (Issei Sato) URL: http://www.r.dl.itc.u-tokyo.ac.jp/~sato/ はじめに 近年、Topic modelと呼ばれる確率的潜在変数モデルが、機械学習とデータマイニングの境界分野で盛んに研究されています。また、Topic modelは、自然言語処理、画像処理、Web解析など様々な応用分野でも多くの適用例が報告されています。 ここでは、Topic modelの研究に関する情報を紹介します。 国際会議 機械学習およびデータマイニングでは、主に国際会議で最先端の議論がされているため、主要国際会議を把握しておくことが重要です。Topic modelの研究では、主に以下の国際会議が重要視されています。 Neural Information Processing Systems (NIPS) Internati

  • Interactive Topic Modeling を読む (Hu, Boyd-Graber and Satinoff ACL2011) - 木曜不足

    9/3 の ACL 読み会で読む [Hu+ ACL11] Interactive Topic Modeling(ITM) の資料です(途中ですが力尽きましたすいません……)。 【追記】 ディリクレ木と Interactive Adding Constraints and Unassigning(←これがこの論文のキモ!) についての説明を追加しました。 【/追記】 Interactive Topic Modeling(ITM) とは 通常の LDA は教師無しであり、結果の制御は基的にできない baseball と football が同じトピックに入って欲しいと思っても、うまく分類されない場合はパラメータを変えて試行錯誤するとか、分類後にトピックをクラスタリングするか ITM は LDA に「単語AとBは同じトピックに入って欲しい」という制約を「後から」入れられるモデル Notatio

    Interactive Topic Modeling を読む (Hu, Boyd-Graber and Satinoff ACL2011) - 木曜不足
  • Regularized Latent Semantic Indexing - tsubosakaの日記

    最近勉強会で発表する予定のものと仕事関係の論文しか読んでなかったのでこのブログにはあんまり書けなかったんだけど、久々に書いてみる。 紹介する論文はSIGIR 2011のLSIを語彙数が大きい時にも効率的に並列化できるようにしたという論文[1]。 論文概要 PLSIやLDAみたいなトピックモデルは情報検索においても性能向上で重要であるが、語彙数が多い時スケールしないという問題点がある(文章数に関しては効率的な実装が知られている。例えば[2])。このためよく行われるのが語彙数を1万とかに制限する方法ですが、情報検索への応用を考えるとこのアプローチは問題がある(文章分類やクラスタリングへの応用であればこれで問題ない)。 このため著者らはRLSIという方法を提案した。これにより160万文章、語彙数700万のデータセットに対して16台のマシンでトピック数500のとき1時間半で処理できた(おそらく1イ

    Regularized Latent Semantic Indexing - tsubosakaの日記
  • 協調フィルタリングのグラフィカルモデル - nokunoの日記

    協調フィルタリングとはAmazonのお勧めのように「この商品を購入した人はこんな商品も購入しています」という情報を用いて推薦をする手法です。グラフィカルモデルはベイジアンネットワークとも呼ばれ、最近一部で流行している機械学習の手法です。今回は、協調フィルタリングをグラフィカルモデルで表現したらどのようになるだろう、と考えて思いついたアイデアを紹介します。 今、ユーザuとアイテムiの組{u,i}のデータが大量に与えられているとします。例えばソーシャルブックマークならユーザとブックマークしているページの組み合わせ、E-commerseならユーザと購入した商品の組み合わせ、などです。ここではSBMを例に考えるので、はてブと同様にユーザはマイナスの評価を付けることはできないものとします。 このときユーザuに対してお勧めのページを推薦することを考えると、ユーザuがまだブックマークしていないページiに

  • 1