Senとは Sen はJAVAで書かれた日本語形態素解析器です。 辞書を使って日本語の文章をトークナイズします。 下は「Sen はJAVAで書かれた日本語形態素解析器です」をSenでトークナイズした例です。 Solrに組み込むことで、日本語文章を意味のある単語単位にトークナイズして検索・インデキシングができるようになります。 これにによってNグラム方式よりも精度の高い( ノイズの少ない )検索結果を得ることができます。ただし、再現率はNグラム方式より劣ります。この辺の話はちょっとややこしいので改めて。 Sen を Solr に組み込むためには別途 lucene-ja も必要になります。lucene-jaはSen のラッパーとして動いて、Sen と Solr の間の橋渡しをするものです。 lucene-ja のインストールは次の記事で書く予定です。 ここでは文字コードをutf-8で統一してい
![日本語形態素解析器Senを導入する その1 Senのインストール - Solr, Python, MacBook Air in Shinagawa Seaside](https://cdn-ak-scissors.b.st-hatena.com/image/square/d05ffa704d9de72dffd4c557fba0425e680b01fa/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fk%2Fknaka20blue%2F20080923%2F20080923141617.jpg)