タグ

ベイジアンに関するdatokaのブックマーク (1)

  • スパムはあっちいけ!「ベイジアン・フィルターによるスパム判定」

    さてじゃあ今度は「ベイジアン・フィルター」を使ったスパム判定だ。何か「名前のついた技法」っていうと、結構ヘヴィなように感じるが、これはそれほどには大した技法ではない。原理は簡単だ。 「通常投稿の例」と「スパムの例」を収集して、その単語ベースの特徴を整理して保存しておく。それで入力テキストで使われる単語の特徴が、どちらに近いか?を判定する。で、「スパム」と入力が判定されたら、「スパムの例」にそれを追加し、「通常投稿」と判定されたら「通常投稿の例」に追加する。 まあ、そんな「学習」タイプのものなので、実はこの「ベイジアン・フィルター」は最近のメーラのスパム対策の主流になっている技術だ。とはいえ、これをそのまま持ってくる...となると、少し考慮が必要ではある。 掲示板スパムで今問題なのは、「(ほとんど)同じ内容の投稿」を大量に繰り返し投稿することだ。実はこのベイジアン・フィルターのアルゴリズムで

  • 1