suikyoのブックマーク - はてなブックマーク

トピックモデル入門編 - yasuhisa's blog
自然言語処理特論も最後の話題、トピックモデルに先週から入ってます。今日の資料はこの辺の最初の付近。 Topicに基づく統計的言語モデルの最善線前々回までの内容は最尤推定に基づいていたものがほとんどで、(ベイズ的な流れではない)スムージングの方法の説明などがあっていました。 Good-Turing 線形補完 Kneser-Ney smoothing などなど。あとは最大エントロピー法などですね。なんでトピックモデルなのか?で、こういう方法があるにも関わらずなんでトピックモデルというのがわざわざ出てくるか。それは、単語の出現確率というのは変動しまくる!という現実があるからのようです。例えば、最尤推定に基づくN-gramでは、文章に関わらず真の出現確率というのがあると想定している。しかし、Unigramを考えているとして、「東証」という単語が出てくる確率は、社説、経済、スポーツ、芸能などでは
suikyo 2011/04/19
NLP

ML
リンク
4.2 確率的生成モデル - yasuhisa's blog
ゼミで発表したので、まとめておきます。自分用メモ。まず、ベイズの定理を使って、クラスの事後分布を計算する。直接事後分布をモデル化しにいく識別モデルとは違い、内部では(クラスとデータの)同時分布を計算しているのが生成モデル。この計算をしていくと自然な形でロジステックシグモイド関数が出てくる。2クラス以上の場合を考えるとソフトマックス関数を導出することができる。 4.2.1 連続値入力生成モデルでは、入力がどのように分布しているかをモデリングしていく。連続値入力の場合を考えて、それぞれのクラスの確率密度は多次元ガウス分布であると仮定してみる。ここで一つ重要な仮定をする。それは全てのクラスにおいて同じ分散共分散行列が共有されている、という仮定だ。ここが一般化線形モデルになるかどうかの鍵を握っているところになる。この仮定を置くと、クラスに対する事後確率がで書き表わされる。と書け、これはパラメー
suikyo 2009/11/10
NL

ML
リンク
1

はてなブックマーク

タグ

ブックマーク / www.yasuhisay.info (2)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / www.yasuhisay.info (2)

トピックモデル入門編 - yasuhisa's blog

4.2 確率的生成モデル - yasuhisa's blog

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス