http://mecab.sourceforge.net/ MeCabは定番のオープンソースの形態素解析エンジン。これをmahoutで利用したい。 方針としてMeCabをJNI経由で利用できるCMeCabを経由して利用。理由はMeCabを使ったLuceneのTokenFilterが含まれているため。あとはAnalyzerでラップするだけなので、このメリットは大きい。 http://code.google.com/p/cmecab-java/ MeCabインストールに当たってはすべてUTF-8でインストールすること。 $ tar zxfv mecab-X.X.tar.gz $ cd mecab-X.X $ ./configure --enable-utf8-only --with-charset=utf8 $ make $ make check $ su # make install 辞書も