覚え書きみたいな感じ。 Twitterから取得したTLデータをMeCabの形態素解析にかけると、大抵の固有名詞は単語がバラバラになってしまいます。 バラバラになってしまった「嵐にしやがれ」 これを、固有名詞と判断させるためにどうしたらいいのか。 はてなキーワードとwikipediaのタイトルをMeCabの辞書にぶっこんであげればよし。 ということでがんばってみた。 【主な参考ページ様】 MeCabの辞書をはてなキーワードとWikipediaで鍛える mecab辞書にwikipediaのタイトル名を追加 【はてなキーワード編】 ここからはてなダイアリーキーワードふりがなリストをダウンロード。(keywordlist_furigana.csv) キーワードIDをついてない方を選んだ。 で、このcsvファイルをMeCabの辞書用のcsvに変換しなければならない。 例えばこんな感じ。 嵐にしやがれ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く