日本語を単語に分ける形態素解析 筆者が運用しているライフログシステムのうち、いくつかのモジュールには、文章から単語を取得するための日本語の形態素解析システムを組み込んでいます。 形態素解析は、英語のように単語を分けて表記しない日本語の文章を、単語に分割する処理をいいます。 たとえばニュースからトレンドを取得してリマインドするような場合には、形態素解析による単語の分析があるとよいのです。 ライフログシステム全体では日々、約100~200ファイル程度を形態素解析しています。この程度の規模で実用に使うために、奈良先端科学技術大学の開発した『茶筌』を使用しています。 奈良先端科学技術大学の開発した『茶筌』 現在は、sourceforgeで入手できます。 ほかにもいくつか形態素解析システムはあるのですが、Windows用でインストール用のドキュメントがわかりやすいものというと、『茶筌』が筆頭でした