id:amatubu:20070524 の続きの続き。テストに使ったデータを修正して再挑戦。結果の詳細。 結果は、なんと、22,340 通のメールを分類させ、Kakasi 270 通、文字種による分割(simple) 270 通、MeCab 269 通の分類ミス(精度では 98.791%、98.791%、98.796%)。2 万通ものメールを分類してミスの数が 1 通しか変わらないというのは驚いた。Kakasi と MeCab の結果がほぼ同じというだけならばまだわかるが、文字種による分割でも何ら変わらない。しかもグラフを見ると、一部では文字種による分割の方が精度が良いところもあり、これは十分実用になりそうだ。 また、当然ながらデータを精査したことによって精度が大きく向上した。さらに、途中から精度が下がっていくという謎の現象も解消した。やはりデータを使って検証を行うときはそのデータ自体の精
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く