インターネットの普及により、一般の方がウェブの掲示板やブログ、ツイッターなどで情報を発信する機会が増えてきました。ただ、その中には健全な情報に紛れ、誹謗・中傷や犯罪予告などの違法・有害な書き込みも見受けられます。そこで注目されているのが、こうした情報を言語解析によって自動的に検出する技術です。また、ウェブの書き込みを解析して一般消費者の意見や動向をつかみ、商品開発やマーケティングに生かそうという評判解析も進められています。 ところが、こうした文には、「ヵゎぃぃ(=かわいい)」「ゎナ=∪は(=わたしは)」などのギャル文字、「困っちゃうなぁ~」といった口語、「KD●I研究所」のような伏せ字など、「くだけた表現」を含んでいることがあります。現在の言語解析技術は、新聞などの正しい表現で書かれた文なら正確に解析できます。ところが、くだけた表現には対応できず、600万文のブログを解析したところ、65万