日本語文を単語に分割することができれば、 情報検索システムにおける索引語の抽出などに応用が可能である。 日本語は欧米の言語と違い、単語と単語の間に空白がないため、 単語の切り出しは容易ではない。 日本語文を単語に分割するためには形態素解析 (morphological analysis) が必要となる。 形態素解析システム 形態素解析システムと呼ばれるソフトウェアを用いると、 日本語文が単語辞書と文法規則によって正しく単語に分割される。 また、各単語の品詞情報が得られるほか、 用言 (動詞、形容詞など) の活用形を基本形(原形、終止形)に戻してくれる。 日本語形態素解析システムのリスト 形態素解析システムのうち、日本語に対応していて、 オープンソースのものを挙げる。 MeCab 最も知名度のある形態素解析システム。下記の茶筌を設計し直したもの。茶筌より高速だが、一部機能が限定されている。C