タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

bayesとmorphologicalに関するteddy-gのブックマーク (2)

  • 綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組み

    単純ベイズ法を2つの蛇口でとらえる いままで見てきたように、単純ベイズ法を用いたスパム判定では、すでに手元にあるスパムメール中に含まれている単語の出現頻度と、非スパムメール中に含まれている単語の出現頻度を計算することで、スパムメールの判定を行いました。 この計算の過程を、もう少し大ざっぱなモデルで説明してみましょう。 まず、無限の単語を含んだ蛇口を2つ考えます。1つは、スパム発生源の蛇口で、もう1つは通常メールの発生源の蛇口です。 そして、蛇口から流れ出た単語が袋に入りメールを生成するとします。それぞれの蛇口に含まれている単語の割合はもちろん違います。おそらく、スパムの蛇口に「無料」が含まれる割合は、非スパムの蛇口に「無料」が含まれる割合よりずっと大きなはずです。 スパム判定問題は、この蛇口を使うと次のようにモデル化できます。 いま、どちらか一方の蛇口から単語をばらばらと(有限個)こぼしま

    綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組み
    teddy-g
    teddy-g 2014/03/18
    ベイズ理論の説明はこれが一番わかりやすかった。
  • 棚からパルチャギ

    実践編です。 ベイジアンフィルタを使ったアプリケ-ションの流れは、大きく分けて以下の3段階になります。 カテゴリ(クラス)定義 パターン学習 文書分類 単純ベイズ分類器(Naive Bayes classifier)ではクラス毎に単語の出現頻度を記憶して、その情報をもとに文書がそれぞれのクラスに属する確率を求めます。 SPAMフィルタなどでは「spam」と「nospam」のように2つのクラスだけで使用されることが多いです。多分。 パターン学習は、特定の文書(単語のセット)がどのクラスに所属するかを指定します。 これにより出現頻度のデータベース(コーパス)が更新されて、次回以降の分類精度を向上させることができます。 通常は、クラスを最初に設定して、以降は学習と分類を繰り返すような感じになると思います。 …ということで、クラスの定義から。 何故かNaiveBayesianStorageには、カ

    teddy-g
    teddy-g 2014/03/18
    PHPでベイジアンフィルタ。結局クラスの中身がよくわからんので実装法だけ。
  • 1