オープンソースの形態素解析エンジンMecab(和布蕪)を導入して、今欲しいあれこれを試すことにしました。 今回は方法論を検討します。 やりたいこと 前回、Yahoo! JapanのWeb APIには「ルビ振り」というテキスト解析がある件という記事を書きました。 Yahoo! JapanのWeb API「ルビ振り」を使って「ふりがな」をつける方法です。 しかし仮に今後「タグ」を付ける方法を検討することを考えると、形態素解析が必要になります。 Yahoo! JapanのWeb APIでも形態素解析は可能ですし、性能も高いようです。 しかし自由度や汎用性の点でMecabに劣ります。何より英単語→カナ読みまではできません (うまく使い分けたいですね。APIは単独で使う分には便利!だし)。 漢字→フリガナ 英単語→カナ読み 自動リンク(AutoLink) タグ これらを実現するため、以下ではMeca