動機 ずいぶんと前から bogofilter の評価をしているのですが、日本語のメールの判定率がいまいちです。 iconv を使った日本語対応ができるようになっているものの、肝心の単語の抽出ができていないのがいけないのかなぁ…と思い、 bogofilter + kakasi パッチ も最近のバージョンのものは公開されていないようなので、 N-gram による単語分割を組み込んでみました。 N-gram は Unicode のブロックによって N を切り替える複数長 N-gram となっています。 また、プロパティによって記号等を削除(あるいは空白文字に置き換え)を行っているので、判定のノイズの元となるゴミもたまりにくくなっていると思います。 nkf も組み込み可能ですので、パイプで nkf や kakasi を組み合わせないでも bogofilter 単体での日本語メールの扱いができるよう