タグ

ベイズに関するnaoeのブックマーク (4)

  • ナイーブベイズを用いたブログ記事の自動分類 - 人工知能に関する断創録

    カイ二乗値を用いた特徴選択(2010/6/25)の続きです。今まで使ってきた20 Newsgroupsというデータは英語文書でかつ元ネタがよく分からずあまり面白くなかったので、今回はこのブログ(人工知能に関する断想録)の記事を分類してみます。このブログの各記事には私の判断でカテゴリをつけています。たとえば、この記事は[機械学習][自然言語処理]です。カテゴリのリストはこのブログの左メニューにあります。この前、少し整理したので全部で18のカテゴリがあります。新しい記事を書いたとき自動でカテゴリを割り振ることはできるのでしょうか? (注)プログラミング言語はPythonを使っています。シリーズもので以前作ったコードを再利用してるので検索で飛んできた人はナイーブベイズを用いたテキスト分類(2010/6/13)から順に読んでください。 はてなダイアリーデータのダウンロードと整形 まず、はてなダイア

    ナイーブベイズを用いたブログ記事の自動分類 - 人工知能に関する断創録
  • ディリクレ過程とディリクレ過程混合モデル - yasuhisa's blog

    多項分布とディリクレ分布NLP関係、特に言語モデルなどでは多項分布がよく使われる(N個のデータがあったときに、Aに1つ、Bに3つ…というような感じ)。言語モデルを作るときにはゼロ頻度問題が常に問題となるので、多項分布のパラメータを最尤推定で求めたものを使っては危険。なので、バックオフをするなど、discountingをするのが普通である。この問題をベイズ流に解決しようとすると、事前分布を置くということになる。多項分布の共役事前分布はディリクレ分布となっていて、ここに二つの分布の関係性が出てくる(see also PRML2章)。 通常のパラメトリックベイズモデルにおける混合モデルベイズ推定では、なんでも確率変数と考えて事前分布をおいたりできることから、パラメータの分布、その事前分布というのを考えることができた。ここで、一歩高い視点から見てみることにしよう。どういうことをやるかというと、「確

    ディリクレ過程とディリクレ過程混合モデル - yasuhisa's blog
  • EMアルゴリズム→一般化EMアルゴリズム→変分ベイズ - yasuhisa's blog

    EMアルゴリズム自然言語処理特論で、EMアルゴリズムが紹介されたので、自分たちでやっているゼミでEMアルゴリズムについて紹介した。EMアルゴリズムの基的な考え方は、対数尤度を変形していき、イェンセンの不等式によって下界を与え、その下界をカルバックライブラーダイバージェンスとQ関数に分解、パラメータについて関係あるQ関数の最大化をすれば、対数尤度関数も最大になる、というものであった。よい下界を与えてあげることで、最適化問題が簡単になりiterationの間、対数尤度対数尤度関数は単調非減少であるという性質から極大な点に収束してくれるというよい性質を持っていた。 一般化EMアルゴリズム隠れ変数をもっと一般的な状況にしたものについて考える。因果ネットワークと呼ばれるようなものでは、隠れ変数と観測変数の依存関係が指数関数的に増えてしまい、EMアルゴリズムでは現実的な時間での計算が厳しくなる。この

    EMアルゴリズム→一般化EMアルゴリズム→変分ベイズ - yasuhisa's blog
  • 初めての経験ベイズ - yasuhisa's blog

    今日の自然言語処理特論は言語モデルから一旦離れて*1、ベイズ入門なお話。ベイズについては多少知っているので、その辺はもう書かない。 新しく出てきたものの中に経験ベイズの話があった。経験ベイズを考える状況としては ベイズ的なフレームワークで考えている 事前分布を何かおいてやらないといけない しかし、無情報事前分布のようなものだとベイジアンな意味があまりない*2 なにかしら意味のある事前分布とそのパラメータを決めてあげたい というような状況で経験ベイズが発動する。経験ベイズというのは一言で言えばデータの尤度のことで のこと。ここで、事前分布を母数で決まる分布としている。尤度をこのような母数を含む形で書いてやれば、最尤法により母数を推定することができ、事前分布の推定された母数が手に入る。ベイジアンなのに、最尤推定が出てくるというなんとも変な感覚である。 経験ベイズの例として、単語出現dfのモデル

  • 1