[B! pystan] moa108のブックマーク

moa108 id:moa108

pystanに関するmoa108のブックマーク (1)

Pystanで自然言語処理　scikit.learnのdatasetで試す - xiangze's sparse blog
scikit.learnは様々な機械学習のアルゴリズムのみならず、データセットも充実しています。stanのpythonラッパーpystanでこれを利用し、Stan manualのLDAのコードの性能を評価することを行いました。 20 newsgroupsというデータセットは名前の通りUsenetの20のカテゴリー、２０００0の文書(英語)からなるデータセットです。これをsklearn.feature_extraction.text のCounterVectizerを用いて単語数をカウントした行列形式に変換し、Stanのコードに入力します。コードは以下のようになります。行列は疎行列形式で保存されているのでこれを変換し、またStanの添え字形式である1始まりに変換します。beroberoさんが高速化のために書かれたコード(あらかじめ計算しておいた各wordの頻度を用いて尤度を足し合わせる
moa108 2014/03/03
LDA

stan

自然言語処理

python

pystan
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx