2010年8月6日のブックマーク (3件)

  • Collapsed Gibbs Samplingを使ったLDAについて調べ中 - EchizenBlog-Zwei

    あくまで調べ中。なんだけど自分用にメモしておく。 大雑把に言うと、LDAは α=>[θ=>[z=>w]]<=β α,β: パラメータ θ,z : 潜在変数 w : 観測データという形をしていて、観測データの尤度を計算するには潜在変数θおよびzについて周辺化しないといけない。ところが潜在変数間に依存関係(θ=>z)があるので、θ、zそれぞれ独立に周辺化できない。 そこでBlei論文では変分ベイズ法という方法を使ってθとzの依存関係を切り離す方法をとっている。一方でGriffithsらのギプスサンプラを使う方法ではサンプリングしたzを使うことでzを観測データにしてしまうことで上記問題を解決している(多分 ついでにβにもディリクレ事前分布を導入していてBlei論文でのβをφ、ディリクレパラメータをβとしている。紛らわしい。その結果 α=>[θ=>[z=>w]]<=[φ]<=β α,β: パラメー

    Collapsed Gibbs Samplingを使ったLDAについて調べ中 - EchizenBlog-Zwei
    uchumi
    uchumi 2010/08/06
  • Compressed Suffix Arrayの記事まとめ - EchizenBlog-Zwei

    一応CSAの記事を書き終えたので、各記事へのリンクリストを。 補足:記事を7つも読むの面倒くさい人は、↓にもう少し簡単な圧縮法の解説を書いておいたので参照されたい。 15分でわかる(とうれしい)Suffix Arrayの簡単な圧縮法 Compressed Suffix Arrayの解説(1) -Suffix Array- Compressed Suffix Arrayの解説(2) -SAの計算量- Compressed Suffix Arrayの解説(3) -圧縮の方針- Compressed Suffix Arrayの解説(4) -unary記法- Compressed Suffix Arrayの解説(5) -Succinct Bit Vector- Compressed Suffix Arrayの解説(6) -B Vectorと Ψ Vector- Compressed Suffix

    Compressed Suffix Arrayの記事まとめ - EchizenBlog-Zwei
  • 5分でわかる(かもしれない)圧縮の基本 - EchizenBlog-Zwei

    大規模データを日常的に扱う人にとって、データ圧縮は基。絶対ないと困るわけではないけど、あると格段に世界が広がる。ドラクエで言うところのルカニみたいなもの。 でも圧縮というとデータをバイナリで持たないといけないとか、なんとなく面倒なので目を背けがち。そこで5分でわかるような感じで説明を書いておく。 基的な圧縮の方法は差分圧縮というのがある。今回はこれを説明する。 char型のデータが8つ並んでいると考える。 6 3 2 1 7 5 4 8とりあえずバイナリにしてみる。便宜上、縦に書く。 6 3 2 1 7 5 4 8 =============== 1の位:0 1 0 1 1 1 0 0 2の位:1 1 1 0 1 0 0 0 4の位:1 0 0 0 1 1 1 0 8の位:0 0 0 0 0 0 0 1 16の位:0 0 0 0 0 0 0 0 32の位:0 0 0 0 0 0 0 0

    5分でわかる(かもしれない)圧縮の基本 - EchizenBlog-Zwei