タグ

2011年1月29日のブックマーク (4件)

  • http://ml.tietew.jp/cppll/cppll/thread_articles/11945

  • 文節区切り判定器の実装を公開 - ny23の日記

    一年ほど前に構文解析器を公開したが,(文節区切りされたデータを入力する仕様で)単体では使えない状態のままずっと放置していた.ところが最近になって,幾つかの共著論文で公開した構文解析器を引用する機会があり,このままではマズイと思ったので,現時点で使っている文節区切り - ny23の日記で書いた200行弱のシンプルな文節区切りの実装を同梱してみた.文節区切りの入出力がパイプ経由の文字列渡しなのは明らかに無駄なのだけど,気にしないことにしよう. MeCab と組み合わせる場合,解析速度は新聞記事だと入出力(UTF-8)込みで12,000文/秒,ブログ記事なら21,000文/秒程度(3.2 Ghz CPU; MeCab だけだと,新聞記事で22,000文/秒程度(入出力込み)なので,そんなに悪くない速度ではないかと)*1.係り受けのところだけで評価すると(デフォルトのパラメタで)解析精度は91.8

    文節区切り判定器の実装を公開 - ny23の日記
  • [機械学習] LDAのコードを書いてみた - tsubosakaの日記

    昔書いたことがあったけど、どこかにいってしまったのでもう一度書いてみた。推論方法にはギブスサンプリングと変分ベイズの2つがあるけど、導出も実装もより楽なcollapsed gibbs sampling(Griffiths and Steyvers, PNAS, 2004)の方を採用。 Token.java package lda; public class Token { public int docId; public int wordId; public Token(int d , int w){ docId = d; wordId = w; } } LDA.java package lda; import java.util.*; public class LDA { int D; // number of document int K; // number of topic int

    [機械学習] LDAのコードを書いてみた - tsubosakaの日記
  • PythonでLDAを実装してみる

    Latent Dirichlet Allocationはテキストのような不連続データのための生成的確率モデル。入力はドキュメント。出力はドキュメントを特徴づける何か(tf-idfみたいなもん)。 基的なアイディアは、あるドキュメントは潜在的ないくつかのトピックが混合していて、それぞれのトピックは語の分布で特徴づけられている、ということ。 論文[1]ではαとβというパラメータを用いてドキュメントが以下のように生成されると仮定している。 ドキュメントのトピックの分布θがディリクレ分布Dir(α)に基づいて選ばれる。 ドキュメントの語数N個になるまで以下を繰り返す。 トピックznが多項分布Mult(θ)に基づいて選ばれる。 単語wnが確率p(wn|zn,β)で選ばれる。 ただし、トピックzの数をk個、単語wの種類をV個とすると、パラメータαはk次元のベクトル、βはk x V次元の行列でβij=