soyanaのブックマーク / 2008年8月8日

続々・分かち書きプログラムの違いによる精度比較 - あまつぶ＠はてなダイアリー

id:amatubu:20070524 の続きの続き。テストに使ったデータを修正して再挑戦。結果の詳細。結果は、なんと、22,340 通のメールを分類させ、Kakasi 270 通、文字種による分割（simple） 270 通、MeCab 269 通の分類ミス（精度では 98.791%、98.791%、98.796%）。2 万通ものメールを分類してミスの数が 1 通しか変わらないというのは驚いた。Kakasi と MeCab の結果がほぼ同じというだけならばまだわかるが、文字種による分割でも何ら変わらない。しかもグラフを見ると、一部では文字種による分割の方が精度が良いところもあり、これは十分実用になりそうだ。また、当然ながらデータを精査したことによって精度が大きく向上した。さらに、途中から精度が下がっていくという謎の現象も解消した。やはりデータを使って検証を行うときはそのデータ自体の精

はてなブックマーク

タグ

2008年8月8日のブックマーク (3件)

http://mm.apache.jp/pipermail/spamassassin-jp/2007-July/thread.html

続々・分かち書きプログラムの違いによる精度比較 - あまつぶ＠はてなダイアリー

[SpamAssassin-JP 568] Re: 分かち書き手法で精度が変らないというレポート

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス