タグ

ブックマーク / www.yasuhisay.info (2)

  • トピックモデル入門編 - yasuhisa's blog

    自然言語処理特論も最後の話題、トピックモデルに先週から入ってます。今日の資料はこの辺の最初の付近。 Topicに基づく統計的言語モデルの最善線 前々回までの内容は最尤推定に基づいていたものがほとんどで、(ベイズ的な流れではない)スムージングの方法の説明などがあっていました。 Good-Turing 線形補完 Kneser-Ney smoothing などなど。あとは最大エントロピー法などですね。 なんでトピックモデルなのか?で、こういう方法があるにも関わらずなんでトピックモデルというのがわざわざ出てくるか。それは、単語の出現確率というのは変動しまくる!という現実があるからのようです。例えば、最尤推定に基づくN-gramでは、文章に関わらず真の出現確率というのがあると想定している。しかし、Unigramを考えているとして、「東証」という単語が出てくる確率は、社説、経済、スポーツ、芸能などでは

    トピックモデル入門編 - yasuhisa's blog
    suikyo
    suikyo 2011/04/19
  • 4.2 確率的生成モデル - yasuhisa's blog

    ゼミで発表したので、まとめておきます。自分用メモ。 まず、ベイズの定理を使って、クラスの事後分布を計算する。直接事後分布をモデル化しにいく識別モデルとは違い、内部では(クラスとデータの)同時分布を計算しているのが生成モデル。この計算をしていくと自然な形でロジステックシグモイド関数が出てくる。2クラス以上の場合を考えるとソフトマックス関数を導出することができる。 4.2.1 連続値入力 生成モデルでは、入力がどのように分布しているかをモデリングしていく。連続値入力の場合を考えて、それぞれのクラスの確率密度は多次元ガウス分布であると仮定してみる。ここで一つ重要な仮定をする。それは全てのクラスにおいて同じ分散共分散行列が共有されている、という仮定だ。ここが一般化線形モデルになるかどうかの鍵を握っているところになる。この仮定を置くと、クラスに対する事後確率がで書き表わされる。と書け、これはパラメー

    suikyo
    suikyo 2009/11/10
  • 1