以前,id:code46さんのMeCabの辞書にはてなキーワードを追加しようの記事を見て,ウヒョースゲーと思って入れたのですが, 最近になって,全キーワードを名詞に入れてるとよろしくないなと気付き, いまちょっとつまづいてる県名などの地域名だけ省けるようにした. 修正するのは,createDict.pyのみです. # -*- encoding: utf-8 -*- import sys import re import MeCab # MeCabを利用する m = MeCab.Tagger ("-Ochasen") #数字四桁が入ったキーワードは役に立ちませんので検出して飛ばします。 year = re.compile("[0-9]{4}") #驚くべきことにはてなキーワードには%00というキーワードがありますが、 #これがcsvとして提供されているダンプではヌル文字になっているのでシステ