以下では自分が運用しているトレンド解析システムで使用しているスパムフィルターの実装方法について解説していきます。 スパムフィルターで用いる機械学習 スパムフィルターの実装では機械学習の中でも「教師あり学習」と言われるものを用います。これはラベルと特徴量からなるデータから、どのような特徴を持つものがどのようなラベル(カテゴリ)に当たるかを自動的に学習するものです。 具体的に見ていきましょう。例えばTwitterには以下の様なツイートがあります。 1.眠い……でも起きなきゃ 2.同点から中田の3ランホームラン! 3.[無料でカンタン]に魔法石ゲット♪ ⇒http://xxx.xyz/999 4.相互フォローで繋がれる人募集中です!すぐフォロー返しますのでよろしくお願いします! リツイートもしてほしいな♪ #followme #refollow #followback #相互フォロー #soug