Elasticsearchでの形態素解析はKuromoji一択だけど、やや辞書が貧弱な部分もある。 例えば東京に「西国分寺駅」という駅があるけど、「西国分寺」で形態素解析すると「西」「国分寺」で分かれる。 読みも「サイコクブンジ」となってしまう。(正しくは「ニシコクブンジ」) なので、ある程度ユーザー辞書で補いたいと思う。 参考になったサイト elasticsearch-analysis-kuromojiでユーザ辞書の利用方法 Elasticsearch 日本語で全文検索 その2 環境 CentOS 6.4 Elasticsearch 1.1.1 kuromoji 2.0.0 辞書ファイルの作成 まず辞書ファイルを作成。 普通のテキストファイルで、文字コードは UTF-8。拡張子は自由。 ここでは例として「my_jisho.dic」とした。 辞書ファイルの置き場所 ファイルの保存先は /e
![Elasticsearch の Kuromoji でユーザー辞書を使う - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/db313324d23b0556e98780f70b066b071478ad45/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9RWxhc3RpY3NlYXJjaCUyMCVFMyU4MSVBRSUyMEt1cm9tb2ppJTIwJUUzJTgxJUE3JUUzJTgzJUE2JUUzJTgzJUJDJUUzJTgyJUI2JUUzJTgzJUJDJUU4JUJFJTlFJUU2JTlCJUI4JUUzJTgyJTkyJUU0JUJEJUJGJUUzJTgxJTg2JnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWNsaXA9ZWxsaXBzaXMmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz04ZWJkODUwMDE4ODExNjQyNzIwMzBlMTgwMDI0ZjUyZg%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwa2lqdHJhJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz1hOWNjYjZkNzZiNzViMDQ0ZDIzYmM0Yjg5MDlkYjQ4YQ%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D9dc9f44a1059f490d8aa25fcef5bf1a0)