[B! extract][html] overlastのブックマーク

overlast id:overlast

extractとhtmlに関するoverlastのブックマーク (3)

Yusuke Nojima on Twitter: "HTML文書からの本文抽出は「句読点(。、．，！？)の密度が高い部分」を取ってくるだけでそこそこ精度が出てしまうことを知ってちょっとがっかり．いや，精度でるんだからいいんだけど．"
HTML文書からの本文抽出は「句読点(。、．，！？)の密度が高い部分」を取ってくるだけでそこそこ精度が出てしまうことを知ってちょっとがっかり．いや，精度でるんだからいいんだけど．
overlast 2013/12/19
研究なら大雑把に取れれば十分だもんねー

html

extract
リンク
CETR による HTML 文書からのテキスト抽出 - やた＠はてな日記
n-yo さんに教えていただいてから随分と経ってしまいましたが，CETR を実装してウェブサービス化してみました． HTML テキスト抽出（CETR） http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の略で，HTML 文書の各行に含まれるタグの割合を利用してコンテンツを抽出する手法です．簡単な内容は以下のようになっています．コメント，スクリプト，スタイルを取り除きます．文書が 1 行のみで構成されている場合，65 文字ずつに分割します．修正（2010-11-10）各行に含まれるタグの割合（Ti）を求めます．タグの割合（Ti）を平滑化します（Ti'）． Ti' における近傍との差（Gi）を求めます． Gi を平滑化します（Gi'）．
overlast 2010/11/10
html

extract
リンク
Roman Gelembjuk. Personal blog
Кінець голоцену Більш обмежена істота не може панувати над істотою, що перевершує її інтелектом. Це здається очевидним, однак для людства це не так просто. Епоха, що наближається, змінена завдяки створенню штучного інтелекту, відіграє ключову роль у переписуванні історії виду Homo Sapiens, ставлячи під сумнів його домінування. Будь-які спроби зупинити прогрес у галузі штучного інтелекту здаються м
overlast 2010/06/23
nlp

html

extract
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx