[B! コンテンツ抽出][アルゴリズム] yuisekiのブックマーク

yuiseki id:yuiseki

コンテンツ抽出とアルゴリズムに関するyuisekiのブックマーク (1)

CETR による HTML 文書からのテキスト抽出 - やた＠はてな日記
n-yo さんに教えていただいてから随分と経ってしまいましたが，CETR を実装してウェブサービス化してみました． HTML テキスト抽出（CETR） http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の略で，HTML 文書の各行に含まれるタグの割合を利用してコンテンツを抽出する手法です．簡単な内容は以下のようになっています．コメント，スクリプト，スタイルを取り除きます．文書が 1 行のみで構成されている場合，65 文字ずつに分割します．修正（2010-11-10）各行に含まれるタグの割合（Ti）を求めます．タグの割合（Ti）を平滑化します（Ti'）． Ti' における近傍との差（Gi）を求めます． Gi を平滑化します（Gi'）．
yuiseki 2010/11/11
tech

本文抽出

コンテンツ抽出

Content Extraction

アルゴリズム
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx