ベイジアンフィルターという仕組みを知ったのは、何年か前に迷惑メールの多さに困り始めた頃だった。OSX付属のMailにも迷惑メールフィルター機能は存在するが、これがあまり賢くない。(いくら学習させても、すり抜けてくる迷惑メールが日に何通かあり、また必要なメールを迷惑メールとしてしまったり。)そんな時に巡り会ったのが、PopfileMgrだった。 使い始めは全くトンチンカンな分類だが、間違って分類した時は、正しく訂正して学習させる。そうしているうちに、驚くほど高精度にメールを分類できるようになる。単なる迷惑メールのフィルタリングだけに留まらず、設定した通りに、どんな風にも分類してくれる。(例えば、「プライベート」「仕事」「DM」「買物」「迷惑」など。) 最近の1ヶ月を振り返って、迷惑メールか、それ以外で、その分類の精度を確認してみた。最近では1日に50通前後の迷惑メールが届く。今確認したところ
インターンの増田です。 ActiveRecordのデータを使ってベイジアンフィルタを使う必要があったので、この部分をプラグイン"Acts as classified":http://labs.airs.co.jp/projects/acts-as-classified として抜き出してみました。 インストール 依存しているライブラリをインストールします。 gem install classifier stemmer プラグインをインストールします。 ./script/plugin install svn://rubyforge.org/var/svn/actasclassified/trunk/acts_as_classified また、日本語のデータを学習に用いる場合は"MeCab":http://mecab.sourceforge.net/ とそのRubyバインディングをインストールし
概要 我が家のLinux機(Fedora10)にMecabを入れた際のログです。 入れたものは以下。 MeCab0.98 mecab-ipadic-2.7.0-20070801 mecab-naist-jdic-0.6.1-20090630 unidic-mecab-1.3.12 mecab-ruby-0.98 以上5つです。 ここでは入れた際に打ったコマンドと、簡単なサンプルを載せておきたいと思います。 MeCabのインストール ダウンロードはこちら http://sourceforge.net/projects/mecab/files/ Linuxであれば、mecab-x.xx.tar.gz(x.xxはバージョン番号)を持ってきます。持ってきたら解凍してinstall。 $ tar xzvf mecab-x.xx.tar.gz $ cd mecab-x.xx $ ./configure
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く