ナイーブベイズを用いたテキスト分類(2010/6/13)の続きです。前回、実装したナイーブベイズの分類精度を評価してみます。テキスト分類のベンチマークとして使われるのは Reuters-21578 20 Newsgroups といったデータセットです。今回は、ナイーブベイズの分類精度を20 Newsgroupsで評価してみたいと思います。論文は散々読んだけど自分で試すのは初めてなんだよなー。 20 Newsgroups http://qwone.com/~jason/20Newsgroups/ Usenet*1から収集した約20000文書、20カテゴリのデータセットです。カテゴリは下の20個。まあ何となくどんなカテゴリなのかわかりますね。おおまかにcomp、rec、sci、talkに分けられるので4カテゴリとして扱うこともあるようです。 comp.graphics comp.os.ms-w
![20 Newsgroupsで分類精度を評価 - 人工知能に関する断創録](https://cdn-ak-scissors.b.st-hatena.com/image/square/a519a4e75c01277c987056785e38f5334f309151/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fa%2Faidiary%2F20100617%2F20100617220155.png)