Elasticsearchでの形態素解析はKuromoji一択だけど、やや辞書が貧弱な部分もある。 例えば東京に「西国分寺駅」という駅があるけど、「西国分寺」で形態素解析すると「西」「国分寺」で分かれる。 読みも「サイコクブンジ」となってしまう。(正しくは「ニシコクブンジ」) なので、ある程度ユーザー辞書で補いたいと思う。 参考になったサイト elasticsearch-analysis-kuromojiでユーザ辞書の利用方法 Elasticsearch 日本語で全文検索 その2 環境 CentOS 6.4 Elasticsearch 1.1.1 kuromoji 2.0.0 辞書ファイルの作成 まず辞書ファイルを作成。 普通のテキストファイルで、文字コードは UTF-8。拡張子は自由。 ここでは例として「my_jisho.dic」とした。 辞書ファイルの置き場所 ファイルの保存先は /e