[B! content extraction] yuisekiのブックマーク

yuiseki id:yuiseki

content extractionに関するyuisekiのブックマーク (3)

[SmartNews] Globally Scalable Web Document Classification Using Word2Vec
This is the slides for SF Bayarea Machine Learning Meetup (http://www.meetup.com/SF-Bayarea-Machine-Learning/events/221739934/)Read less
yuiseki 2015/08/04
smartnewsの機械学習を利用した本文抽出と文書分類のアルゴリズム

tech

本文抽出

コンテンツ抽出

content extraction
リンク
CETR による HTML 文書からのテキスト抽出 - やた＠はてな日記
n-yo さんに教えていただいてから随分と経ってしまいましたが，CETR を実装してウェブサービス化してみました． HTML テキスト抽出（CETR） http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の略で，HTML 文書の各行に含まれるタグの割合を利用してコンテンツを抽出する手法です．簡単な内容は以下のようになっています．コメント，スクリプト，スタイルを取り除きます．文書が 1 行のみで構成されている場合，65 文字ずつに分割します．修正（2010-11-10）各行に含まれるタグの割合（Ti）を求めます．タグの割合（Ti）を平滑化します（Ti'）． Ti' における近傍との差（Gi）を求めます． Gi を平滑化します（Gi'）．
yuiseki 2010/11/11
tech

本文抽出

コンテンツ抽出

Content Extraction

アルゴリズム
リンク
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
yuiseki 2007/11/17
tech

自然言語処理

本文抽出

ベイジアンフィルタ

Content Extraction

アルゴリズム
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx