自分の研究に間接的に使うことになって、最近勉強したのでメモ テキストセグメンテーションとは? 自然言語処理の一種で、ブログなどの色々なトピックがごちゃまぜに書かれている非構造な文書を、ニュースのようにトピックごとに分割する手法です。 例 こんな感じに、段落ごとにコロコロとトピックが変わる節操のないブログが記事があったとします。 旅行 旅行 スポーツ 仕事 スポーツ 旅行 旅行 テキストセグメンテーションはこのような非構造な文書を、トピックが変わったところで分割してくれます。 旅行 旅行 スポーツ 仕事 スポーツ 旅行 旅行 応用先 ではテキストセグメンテーションができると何がうれしいのか? 有望な応用先は、評判抽出、検索、要約といった他の自然言語処理の前処理に使用することです。自然言語処理の様々な手法は、1つ1つの文書に対して処理を行うように考えられていますが、あらかじめトピックごとに分割