Regularized Latent Semantic Indexing - tsubosakaの日記

テクノロジーカテゴリーの変更を依頼記事元:

tsubosaka.hatenadiary.org

12 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

passingloop 語彙数が多いときでも LSI を使えるかもしれない

ml
sigir

2011/09/03 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Regularized Latent Semantic Indexing - tsubosakaの日記

最近勉強会で発表する予定のものと仕事関係の論文しか読んでなかったのでこのブログにはあんまり書けな... 最近勉強会で発表する予定のものと仕事関係の論文しか読んでなかったのでこのブログにはあんまり書けなかったんだけど、久々に書いてみる。紹介する論文はSIGIR 2011のLSIを語彙数が大きい時にも効率的に並列化できるようにしたという論文[1]。論文概要 PLSIやLDAみたいなトピックモデルは情報検索においても性能向上で重要であるが、語彙数が多い時スケールしないという問題点がある(文章数に関しては効率的な実装が知られている。例えば[2])。このためよく行われるのが語彙数を1万とかに制限する方法ですが、情報検索への応用を考えるとこのアプローチは問題がある(文章分類やクラスタリングへの応用であればこれで問題ない)。このため著者らはRLSIという方法を提案した。これにより160万文章、語彙数700万のデータセットに対して16台のマシンでトピック数500のとき1時間半で処理できた(おそらく1イ

ブックマークしたユーザー

issaymk22012/03/23
sucrose2012/03/22
passingloop2011/09/03
manboubird2011/09/03
sleepy_yoshi2011/08/27
TohgorohMatsui2011/08/23
murawaki2011/08/22
imakenfever2011/08/21
imaizum2011/08/21
sassano2011/08/20

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx