この記事は KMC advent calendar 8日目の記事ということにしています。 adventar.org KMC では部内ドキュメント検索システムで Elasticsearch を使用している。最近 Elasticsearch のバージョンを上げる準備をしていて、設定の見直しの中で N-gram token filter を使ってみたら想定と違った挙動をしたのでメモ。 Disclaimer 7.16 で確認 検索結果に False positive, False negative がないかの視点で見ている。スコアリング関係は見ていない。 Edge n-gram 、CJK bi-gram については見ていない エラサーのプロではないので間違っていたら教えて下さい… TL;DR N-gram tokenizer はイメージ通り、与えられた文字列を N-gram で各 Token に分