lucene-gosenとは lucene-gosenとは、全文検索エンジンのLucene/Solr3.1及び4.0で動作する、日本語の形態素解析用のJavaライブラリで、ここで公開されています。なお、ここで扱うlucene-gosenのバージョンは1.0.1とします。 一般的に日本語を扱う場合には、英語のように空白で文章を単語に区切れない為、n文字ずつ格納するN-GramのCJKAnalyzer(Bi-Gram)や、形態素解析を用いるJapaneseAnalyzer(lucene-gosenに含まれる)を主に用います。それぞれメリットとデメリットがあって、N-Gramは検索もれが少ない分ノイズが多く、形態素解析を用いるとノイズは少なくなるが検索もれが多くなるという特徴があります。どちらも一長一短なので、日本語を扱う場合二つのAnalyzerを併用したりします。(例として、形態素解析を用い