LUNA(武藤研究会ソフトウェア研究グループ)の共同更新ブログ作業環境:Lunalice(CentOS 5.5) システムエンコーディング:UTF-8 MeCabのエンコーディング:UTF-8 ◆Wikipedia編 SorAmberが作ってくれたwikipedia.csvを使う。 コスト付をして文脈IDを整形しただけで使用完了した。 この方法については後述。 (maintain.rb) ◆はてなキーワード編 各種ページを参照するも、上手く行くものなし。恐らく原因はテキストファイルが汚い(フォーマットに則っていない、記号等が読み込めない)ことだと思う。 最終的に、 http://d.hatena.ne.jp/hirokan55/20100215/p1 のページをベースに使うことにした。 ページの通りに進めることで辞書登録を確認。 しかし、折角はてなキーワードにはふりがな