n-yo さんに教えていただいてから随分と経ってしまいましたが,CETR を実装してウェブサービス化してみました. HTML テキスト抽出(CETR) http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の略で,HTML 文書の各行に含まれるタグの割合を利用してコンテンツを抽出する手法です.簡単な内容は以下のようになっています. コメント,スクリプト,スタイルを取り除きます. 文書が 1 行のみで構成されている場合,65 文字ずつに分割します.修正(2010-11-10) 各行に含まれるタグの割合(Ti)を求めます. タグの割合(Ti)を平滑化します(Ti'). Ti' における近傍との差(Gi)を求めます. Gi を平滑化します(Gi').