Senとは Sen はJAVAで書かれた日本語形態素解析器です。 辞書を使って日本語の文章をトークナイズします。 下は「Sen はJAVAで書かれた日本語形態素解析器です」をSenでトークナイズした例です。 Solrに組み込むことで、日本語文章を意味のある単語単位にトークナイズして検索・インデキシングができるようになります。 これにによってNグラム方式よりも精度の高い( ノイズの少ない )検索結果を得ることができます。ただし、再現率はNグラム方式より劣ります。この辺の話はちょっとややこしいので改めて。 Sen を Solr に組み込むためには別途 lucene-ja も必要になります。lucene-jaはSen のラッパーとして動いて、Sen と Solr の間の橋渡しをするものです。 lucene-ja のインストールは次の記事で書く予定です。 ここでは文字コードをutf-8で統一してい