CETR による HTML 文書からのテキスト抽出 - やた＠はてな日記

テクノロジーカテゴリーの変更を依頼記事元:

s-yata.hatenadiary.org

13 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

fuba これでWWW2010通ってるんだ、軽いのがいいのかな／ちょっとよんでみた、CleanEval での結果が目を引く

2010/11/10 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

CETR による HTML 文書からのテキスト抽出 - やた＠はてな日記

n-yo さんに教えていただいてから随分と経ってしまいましたが，CETR を実装してウェブサービス化してみ... n-yo さんに教えていただいてから随分と経ってしまいましたが，CETR を実装してウェブサービス化してみました． HTML テキスト抽出（CETR） http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の略で，HTML 文書の各行に含まれるタグの割合を利用してコンテンツを抽出する手法です．簡単な内容は以下のようになっています．コメント，スクリプト，スタイルを取り除きます．文書が 1 行のみで構成されている場合，65 文字ずつに分割します．修正（2010-11-10）各行に含まれるタグの割合（Ti）を求めます．タグの割合（Ti）を平滑化します（Ti'）． Ti' における近傍との差（Gi）を求めます． Gi を平滑化します（Gi'）．

html
tech

ブックマークしたユーザー

nagayama2013/10/11
mwsoft2010/11/11
toton2010/11/11
yuiseki2010/11/11
fuba2010/11/10
overlast2010/11/10
rokujyouhitoma2010/11/10
sucrose2010/11/10

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx