タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

algorithmとn-gramに関するcho45のブックマーク (1)

  • Bogofilter で日本語を

    動機 ずいぶんと前から bogofilter の評価をしているのですが、日語のメールの判定率がいまいちです。 iconv を使った日語対応ができるようになっているものの、肝心の単語の抽出ができていないのがいけないのかなぁ…と思い、 bogofilter + kakasi パッチ も最近のバージョンのものは公開されていないようなので、 N-gram による単語分割を組み込んでみました。 N-gram は Unicode のブロックによって N を切り替える複数長 N-gram となっています。 また、プロパティによって記号等を削除(あるいは空白文字に置き換え)を行っているので、判定のノイズの元となるゴミもたまりにくくなっていると思います。 nkf も組み込み可能ですので、パイプで nkf や kakasi を組み合わせないでも bogofilter 単体での日語メールの扱いができるよう

  • 1