第二十三回 文書をMeCabを使って形態素解析していたが,名詞だけを抜き出したいとか,固有名詞だけが必要というときに,今までは品詞情報から正規表現でマッチさせて場合分けしていた.これがやっぱり処理としては遅いようだ. そこで,品詞情報から正規表現を使って場合分けするのではなく,MeCab-0.92から利用できるようになった品詞IDを利用してマッチさせてみる.このエントリはその時ちょっとハマったのでメモ. http://mecab.sourceforge.jp/posid.htmlのページでも説明されているが,品詞IDを定義したファイル(pos-id.def)を変更した場合,辞書の再コンパイルが必要だ.ここでハマった. 自分が成功した時の情報をメモ.環境はMeCab-0.93(MeCab本体と辞書の両方をutf8で利用). 自分で品詞情報とか,未知語の定義とかを追加したりはしてないので以下の