最近のスパム判定には、SVM(Support Vector Machine)というパターン識別手法が使われている物があります。 最初SVMのことを知らなくて、ぐぐってみた中で、自分にはここの説明が、一番特徴がわかりやすかったです。 SVMを使うとなにが嬉しいの? これを読んで、ニューラルネットワークとSVMを比較したとき、SVMは要素間の境界線距離を最大化するように学習する、というのがウリだと思いました。それだけ(たぶん)般化能力が高くなると。 自分が大学にいたとき、少しニューラルネットワークのこともやったことがあります。 そのとき、入力にノイズを混入させて学習させたほうが、学習の般化能力が高くなるようだ、というのがあり、実際に実験するときに試して良い結果が出ていました。 このSVMのモデルを見たとき、例えばニューラルネットワーク(バックプロパゲーション)で、正規分布したノイズを入力に混入