これは Solr Advent Calendar 2016 18日目のエントリです。日付が合っていないのは見なかったことにしてください。 Solr で日本語ドキュメントを検索するとき,日本語形態素解析器(JapaneseTokenizerFactory)を使うことで「日本語らしく」単語分割することができます。しかし,辞書に収録されている単語では不足があったり,ドメイン固有の用語に対応できなかったりと, 形態素解析だけではかゆいところに手が届かないことがあります。形態素解析を補完するものとして N-gram が必要になるケースはまだまだ多いのではないでしょうか。 本エントリでは,Solr 組み込みの様々な N-gram (Tokenizer/TokenFilter)と,日本語の検索で使えるマニアックな実践的な設定例を紹介したいと思います。なお Solr を題材としていますが,ここで紹介する