[B! lda] endornoのブックマーク

endorno id:endorno

ldaに関するendornoのブックマーク (2)

最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足
読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え２個３個の tweet には分離してしまうあたりが減点。というわけで、はてなダイアリーの twitter 記法で試しにまとめてみたのだが、うーん、決して見やすくはないなあ……。再編集してまで紹介したい論文なら、別途記事を書けばいいし。悩ましい。半教師CRF "Semi-Supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling" (Jiao+, COLING/ACL 2006) http://www.metabolomics.ca/News/publications/Jiao_et_al
endorno 2011/01/25
lda

半教師
リンク
PythonでLDAを実装してみる
Latent Dirichlet Allocationはテキストのような不連続データのための生成的確率モデル。入力はドキュメント。出力はドキュメントを特徴づける何か（tf-idfみたいなもん）。基本的なアイディアは、あるドキュメントは潜在的ないくつかのトピックが混合していて、それぞれのトピックは語の分布で特徴づけられている、ということ。論文[1]ではαとβというパラメータを用いてドキュメントが以下のように生成されると仮定している。ドキュメントのトピックの分布θがディリクレ分布Dir(α)に基づいて選ばれる。ドキュメントの語数N個になるまで以下を繰り返す。トピックznが多項分布Mult(θ)に基づいて選ばれる。単語wnが確率p(wn|zn,β)で選ばれる。ただし、トピックzの数をk個、単語wの種類をV個とすると、パラメータαはk次元のベクトル、βはk x V次元の行列でβij=
endorno 2010/12/06
機械学習

lda

python
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx