タグ

2008年12月30日のブックマーク (4件)

  • complement naive Bayes - 機械学習の「朱鷺の杜Wiki」

    多項モデル† 単純ベイズで文書分類をする場合によく用いられるのが多項モデル. 単純ベイズでは,文書 \(\mathbf{x}_i\) が与えられたとき,クラス \(c\) になる確率は次式 \[\Pr[c|\mathbf{x}]\propto\Pr[\mathbf{x}|c]\Pr[c]\] \(w\) 種類の語があるとき,文書ベクトル \(\mathbf{x}_i=(x_{i1},x_{i2},\ldots,x_{iw})\) の要素は,語 \(j\) が文書 \(i\) 内で生じる回数. 多項モデルでは,この要素の頻度が多項分布に従うとする.クラス \(c\) の任意の文書のある語を選んだとき,その語が語 \(j\) である確率を \(\theta_{cj}\) で表す.すると,文書 \(\mathbf{x}_i\) は次式で決まるクラスに分類される \[\arg\max_c=\ln\

  • 単純ベイズ - 機械学習の「朱鷺の杜Wiki」

    単純ベイズ (naive Bayes)† クラス \(c_1,c_2,\ldots,c_M\) のいずれかに,事例 \(\mathbf{x}\) を分類する場合を考える.\(\mathbf{x}\) が \(K\)個の特徴 \((x_1,\ldots,x_K)\) で記述され,この事例の特徴の値は \(v_{1l_1},\ldots,v_{Kl_K}\) になっているとしよう. このとき,次式によって事例 \(x_i\) をクラスに分類する方法を単純ベイズ分類器 (naïve Bayes classifier) や 単純ベイズ法 と呼ぶ. \[\arg\max_{c_k} \Pr[C=c_k] \prod_{j=1}^K \Pr[x_{j}=v_{jl_j}|C=c_k]\] このモデルではクラスが与えられたときの,各特徴量の条件付独立が仮定されている. \[\Pr[x_i|c_k]=\p

  • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

    新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

    新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
  • 広告システムエンジニアは絶対におもしろいと思う理由 - 最速配信研究会(@yamaz)

    少し前からだけど,Cookpadやはてなが広告システムエンジニアを募集している. クックパッド|採用情報: 【技術部】アドシステムエンジニア http://info.cookpad.com/?page_id=113 求人情報:広告システムエンジニア - はてな http://www.hatena.ne.jp/company/staff/accountengineer 私個人の経験から,オンライン広告システムというのは検索やインフラ系と並び,インターネット系のシステムの中でもっともエキサイティングな分野の一つだと思っている.それにもかかわらず,狙って応募してくる人はあまりおらず,いつもいつも悔しい思いをしてきていたので,広告システムがいかにおもしろいかをちょっと述べてみたいと思う. その会社で一番アクセスを受けるところなのでおもしろい. 広告システムはそのサイトの全サービス上に配信する必要が

    広告システムエンジニアは絶対におもしろいと思う理由 - 最速配信研究会(@yamaz)
    f99aq
    f99aq 2008/12/30