タグ

ldaに関するendornoのブックマーク (2)

  • 最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足

    読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。 さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え2個3個の tweet には分離してしまうあたりが減点。 というわけで、はてなダイアリーの twitter 記法で試しにまとめてみたのだが、うーん、決して見やすくはないなあ……。 再編集してまで紹介したい論文なら、別途記事を書けばいいし。悩ましい。 半教師CRF "Semi-Supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling" (Jiao+, COLING/ACL 2006) http://www.metabolomics.ca/News/publications/Jiao_et_al

    最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足
  • PythonでLDAを実装してみる

    Latent Dirichlet Allocationはテキストのような不連続データのための生成的確率モデル。入力はドキュメント。出力はドキュメントを特徴づける何か(tf-idfみたいなもん)。 基的なアイディアは、あるドキュメントは潜在的ないくつかのトピックが混合していて、それぞれのトピックは語の分布で特徴づけられている、ということ。 論文[1]ではαとβというパラメータを用いてドキュメントが以下のように生成されると仮定している。 ドキュメントのトピックの分布θがディリクレ分布Dir(α)に基づいて選ばれる。 ドキュメントの語数N個になるまで以下を繰り返す。 トピックznが多項分布Mult(θ)に基づいて選ばれる。 単語wnが確率p(wn|zn,β)で選ばれる。 ただし、トピックzの数をk個、単語wの種類をV個とすると、パラメータαはk次元のベクトル、βはk x V次元の行列でβij=

  • 1