HTML文書からの本文抽出は「句読点(。、.,!?)の密度が高い部分」を取ってくるだけでそこそこ精度が出てしまうことを知ってちょっとがっかり.いや,精度でるんだからいいんだけど.
n-yo さんに教えていただいてから随分と経ってしまいましたが,CETR を実装してウェブサービス化してみました. HTML テキスト抽出(CETR) http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の略で,HTML 文書の各行に含まれるタグの割合を利用してコンテンツを抽出する手法です.簡単な内容は以下のようになっています. コメント,スクリプト,スタイルを取り除きます. 文書が 1 行のみで構成されている場合,65 文字ずつに分割します.修正(2010-11-10) 各行に含まれるタグの割合(Ti)を求めます. タグの割合(Ti)を平滑化します(Ti'). Ti' における近傍との差(Gi)を求めます. Gi を平滑化します(Gi').
Кінець голоцену Більш обмежена істота не може панувати над істотою, що перевершує її інтелектом. Це здається очевидним, однак для людства це не так просто. Епоха, що наближається, змінена завдяки створенню штучного інтелекту, відіграє ключову роль у переписуванні історії виду Homo Sapiens, ставлячи під сумнів його домінування. Будь-які спроби зупинити прогрес у галузі штучного інтелекту здаються м
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く