[B! extract][algorithm] lamichのブックマーク

lamich id:lamich

extractとalgorithmに関するlamichのブックマーク (3)

RubyForge: ExtractContent: Project Info
This module is to extract the text from web page(html). Intended Audience: Developers License: BSD License Natural Language: English, Japanese Programming Language: RubyRegistered: 2008-03-24 02:11 Activity Percentile: 0% View project activity statistics.
lamich 2009/03/06
1.ブロックに分けてリンク集など明らかなものを除く2.句読点やアフィリエイトリンクの割合やテキストサイズで採点3.クラスタ化して比較4Adsenseのセクションターゲットは特に重視

extract

本文抽出

ruby

algorithm

download
リンク
zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた
ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術 Yahoo!検索スタッフブログ　Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発　ブログ記事の自動分類により消費者意識の側面を捉える試み（PDF）なんでもRSS! HTML文書からのRSS Feed 自動生成　南野朋之奥村学：人工知能学会研究会資料 SIG-SW
lamich 2009/03/02
algorithm

php

extract

scrape

layout

sidebar

content

html

rss
リンク
Webstemmer のしくみ
back [English] 基本的な原理レイアウト分析ツール analyze.py 本文を抽出する extract.py パターンファイルの構造おわりに基本的な原理 Webstemmer では、以下のような仮定をもとにして Web ページを分析しています。すべての記事には共通した (たかだか数種類の) レイアウトが使われている。各ページにはメインとなる文章がひとつ含まれている。 (従って、この原理は日記や掲示板などのサイトには使えません) 記事の文章は毎日変わっても、そのレイアウトは変わらない。バナー広告やナビゲーションの HTML タグは同一レイアウトのページで不変。 Webstemmer はこの仮定をもとに、あるニュースサイトの同一レイアウトをもつページをまとめ、それらのページ中で「変化していない部分」をさがします。バナーやナビゲーション用のリンクなどはレイアウトが
lamich 2009/03/02
extract

algorithm

python

Webstemmer

scrape

layout

sidebar

content
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx