概要 なんだかナイーブな気持ちになったので、Mahoutのnaive bayesを使って心を落ち着けようとしてみた。 バージョンは0.7。コマンドの引数はバージョンによってけっこう違うので注意。 テストデータを用意する Wikipediaから野球、サッカー、F1の記事を各10個ずつ、計30記事を取ってきて、3つのジャンルでclassifyできるよう教育してみる。 コマンドから実行する場合、ディレクトリ名 = ラベルとして扱われる。ので、下記のようにカテゴリごとにディレクトリを分けてファイルを配置しておく。 |-- baseball | |-- buffaloes | |-- dragons | (中略) | |-- swallows | `-- tigers |-- f1 | |-- cenna | |-- europeangp | (中略) | |-- spaingp | `-- wil