土佐弁で「いやー雨がふっちゅう」という言葉がある。これを標準語に翻訳すると「おお、私が気づかないうちに雨が降り始め、そして降り止んだようだ」という感じかな。過去完了形なんて標準語にないので正しく翻訳が難しいのだが、方言にはこういう言葉が結構あるものだ。 さて、そんなわけで(どんなわけだ)形態素解析エンジンの話。 その昔、ケータイ画像投稿掲示板を作った時に検索要素の吸いだしにChasenを使った事がある。が、今はMeCabというのがあるらしいので使ってみた。 MeCabのインストール Debian lennyなので簡単に入る。ただしそのままだとEUC-JPエンジンになってしまう。うちにあわせてUTF-8辞書をインストールした。(わざわざ変換する必要はありません) # aptitude install mecab mecab-jumandic-utf8 あとは、こんな感じで実行できる。 $ e