タグ

algorithmとbayesに関するsyou6162のブックマーク (2)

  • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

    新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

    新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
  • 僻地 - Bayesian Setの種明かし

    Bayesian Setとは集合D_Cが与えられたとき、そこから「類推」して、元の集合C⊃D_Cに入る元xを(「自信」の度合いを表す数値つきで)求めるというもの。ただし、D_Cの元やxは特徴データ{c_i}をもっているとする。で、原論文を読むとΓ関数がずらずらでてきておどろおどろしいのだけれど、実はやっていることは簡単だということに気がついたので、書いてみる。簡単のために、特徴はあるかないかの2値的とする。(一般的には連続量も扱える。)すると、Bayesian Setのアルゴリズムがやっていることは、xについて観測された特徴c毎に重みwを足していくだけである。重みwはハイパーパラメーターα、βを使って,と書ける。ハイパーパラメータというと難しいそうだが、α_t = (Nc:D_Cでcをもつ元の数) + α、β_t = (N-Nc:D_Cでcを持たない元の数) + βと定めるので、α、βは先

  • 1