テキストマイニングにおいては、文章を単語や文節で区切り、単語の出現頻度や単語同士の関係性などを分析します。 この分析の際に使われる技術に、形態素解析という方法があります。 形態素解析は、自然言語を「形態素」に区切る技術です。 自然言語というのは、生活の中で私たちが普通に使っている言葉、一方形態素は、言葉が意味を持つ最小単位です。 日本語のテキストを処理する際に、形態素解析は非常に重要な役割を果たしています。 日本語は英語など西洋の言葉のようには単語の間に空白がないため、単語の区切りを機械的に判断するのが難しいからです。 反対に英語では形態素ごとに単語を分かち書きするのが普通です。 文章を単語ごとに区切ることを分かち書きといいます。 したがって英語では形態素分析は日本語よりもはるかに容易なのです。 形態素解析は、テキストマイニングのほかにも、機械翻訳やかな漢字変換などでも利用されています。