今まで作ったWebサービスのいくつかでMeCabを使っているんですが、最近の言葉がMeCabの辞書に反映されていないので、特に話し言葉に近いブログとかの単語判別が甘いという悩みがありました。 そんな訳で、以前からずっとやろうと思っていたまま後延ばしにしていた、はてなキーワードからMeCabのユーザ辞書を作って利用するようにする作業を行いました。 手順などは、以下のサイトを参考にさせてもらいました。 →はてなキーワードからMecCab辞書を生成する(Ruby版) 以下、実際に行った手順。 はてなキーワードファイルをダウンロードする 以下のページからはてなキーワードがまとまって入っているCSVファイルをダウンロードします。 →はてなダイアリーキーワードふりがなリストを公開しました - はてなダイアリー日記 $ wget "http://d.hatena.ne.jp/images/keyword