データ解析やデータマイニングは定型化したデータを対象としている。データの定型化とは、研究対象の特徴を項目(変数)ごとに分け、表形式(あるいは配列形式)にまとめたものを指す。しかし、われわれの周辺の多くのデータは定型化されていない。 定型化されていないデータの最も典型的な例は、文章(あるいは文書)である。文章とは、何らかの文字列が一定の文法規則に基づいた文の集合体を指す。従って、日記、小説、新聞記事、メール、ブログ文、演説文などは文章と呼ぶが、メーリングリストのログ、遺伝子やウイルスの情報を記号列で表記したものを文章と呼ぶには違和感を持つ方も少なくないようである。そこで、本稿では、記号列が何らかの規則に従って並べられた集合体をテキストと呼ぶことにする。 情報システムの普及とあいまって、テキストデータが急速に増加している。対象を絞っても一つ一つ目を通して分析するのは時間と労力がかかり、効率的に