序文 どうも、再びの新人です。 前回の続きです。 前回mecabだけを使っていたらうまくいかなくて、そのまま世にお披露目をしたところ各方面(qiitaやtwitterやほぼ全方面)から「IPA辞書だけで日本語いけると思うな、NEologdを使え」とのまさかりが飛んできたのでありがたく 顔面 正面から受け止めてみました。 また、ElasticsearchのPluginで日本語解析ができる elasticsearch-analysis-kuromoji も使ってみました。 構想した時点での所感(口語調) NEologdは現代語に対応しているらしいけど、今流行りだしたばかりの新語が横行するTwitterでどこまで通用するだろうか。 kuromojiは日本語分割はできるらしいけど、どこまで現代語的なのだろうか。リプやハッシュタグを取り除く方法はよく分からないな。 環境 前回をご参照ください。 作業
