sleepy_yoshiのブックマーク / 2011年1月29日

sleepy_yoshi id:sleepy_yoshi

2011年1月29日のブックマーク (4件)

http://ml.tietew.jp/cppll/cppll/thread_articles/11945
sleepy_yoshi 2011/01/29
c++

tips
リンク
文節区切り判定器の実装を公開 - ny23の日記
一年ほど前に構文解析器を公開したが，（文節区切りされたデータを入力する仕様で）単体では使えない状態のままずっと放置していた．ところが最近になって，幾つかの共著論文で公開した構文解析器を引用する機会があり，このままではマズイと思ったので，現時点で使っている文節区切り - ny23の日記で書いた200行弱のシンプルな文節区切りの実装を同梱してみた．文節区切りの入出力がパイプ経由の文字列渡しなのは明らかに無駄なのだけど，気にしないことにしよう． MeCab と組み合わせる場合，解析速度は新聞記事だと入出力（UTF-8）込みで12,000文／秒，ブログ記事なら21,000文／秒程度（3.2 Ghz CPU; MeCab だけだと，新聞記事で22,000文／秒程度（入出力込み）なので，そんなに悪くない速度ではないかと）*1．係り受けのところだけで評価すると（デフォルトのパラメタで）解析精度は91.8
sleepy_yoshi 2011/01/29
NLP
リンク
[機械学習] LDAのコードを書いてみた - tsubosakaの日記
昔書いたことがあったけど、どこかにいってしまったのでもう一度書いてみた。推論方法にはギブスサンプリングと変分ベイズの2つがあるけど、導出も実装もより楽なcollapsed gibbs sampling(Griffiths and Steyvers, PNAS, 2004)の方を採用。 Token.java package lda; public class Token { public int docId; public int wordId; public Token(int d , int w){ docId = d; wordId = w; } } LDA.java package lda; import java.util.*; public class LDA { int D; // number of document int K; // number of topic int
sleepy_yoshi 2011/01/29
LDA
リンク
PythonでLDAを実装してみる
Latent Dirichlet Allocationはテキストのような不連続データのための生成的確率モデル。入力はドキュメント。出力はドキュメントを特徴づける何か（tf-idfみたいなもん）。基本的なアイディアは、あるドキュメントは潜在的ないくつかのトピックが混合していて、それぞれのトピックは語の分布で特徴づけられている、ということ。論文[1]ではαとβというパラメータを用いてドキュメントが以下のように生成されると仮定している。ドキュメントのトピックの分布θがディリクレ分布Dir(α)に基づいて選ばれる。ドキュメントの語数N個になるまで以下を繰り返す。トピックznが多項分布Mult(θ)に基づいて選ばれる。単語wnが確率p(wn|zn,β)で選ばれる。ただし、トピックzの数をk個、単語wの種類をV個とすると、パラメータαはk次元のベクトル、βはk x V次元の行列でβij=
sleepy_yoshi 2011/01/29
LDA
リンク
- 2011年2月2日
- 2011年1月29日
- 2011年1月28日