[B! 本文抽出] seikennのブックマーク

ブログの本文抽出 - プログラマでありたい

必要に迫られて、ブログの本文抽出をしたいと思います。2年前くらいにも少し試みたことがあるのですが、ソース消失。。。アプローチとして、２つの方法があると思います。・各ブログサービス（livedoor、ameba、hatena等々）ごとの構造を解析して、それぞれ専用のモジュールを作る長所としては、抽出の精度が高くなる。短所としては、ブログの構成が変わる度にバージョンアップの必要がある。作成するモジュールが多い。対応外のブログはお手上げ。・RSSのdescription等を活用して本文部分を推定する、汎用モジュールを作る長所としては、一つのモジュールのみ保守すれば良い。対象のブログサービスの構成が変わっても影響がない（はず）短所としては、抽出精度の限界がある。おそらく90%くらいが限界か世の中の事例を見ていると、2番目のアプローチが多いようです。有名どころをピックアップ Cee

seikenn 2012/01/19

本文抽出

リンク

ブログの記事本文を抽出するAPI: TSUBUAN

KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる本文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス： http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。以前あった、ceekzさんのアイディアも使わせ

seikenn 2011/02/15

本文抽出

リンク

SEO：サイトフッターへの過剰なリンク設置に注意 ::SEM R (#SEMR)

SEO：サイトフッターへの過剰なリンク設置に注意フッターリンクへの過剰なリンクやキーワード設置は推奨されない。公開日時：2011年01月05日 13:11 SEOを意識するあまり、サイト内リンクの最適化の一環として、ヘッダーやフッター、サイドナビなどの様々な場所に、過剰にキーワードを詰め込んだリンクを設置したり、あるいは、明らかにユーザを無視した、検索エンジンだけのための大量のリンクを設置しているサイトも見受けられる。過去に米Googleウェブスパムチーム・Matt Cutts（マット・カッツ）氏は、サイト解析を通じて、"テンプレート"（サイト共通部品）と見受けられるブロックを検出し、かつ、それが全体的に低価値なパターンの傾向を示している場合は、相応に評価を行わないという説明をしている（参考：「同じHTMLテンプレートから無価値のページを探す」）。さて、Google Webmast

seikenn 2011/01/06

リンク

[B! 本文抽出] denkenのブックマーク

本日の tokyotextmining こと自然言語処理勉強会＠東京第1回で話す「Webページの本文抽出 using CRF」の資料(自己紹介は除く)です。以前、Ruby で作った本文抽出モジュールを機械学習の技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web本文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】

seikenn 2010/07/30

本文抽出

リンク

RSSフィードを全文配信で読むまるごとRSS

無効なURLです。プログラム設定の反映待ちである可能性があります。しばらく時間をおいて再度アクセスをお試しください。

seikenn 2009/12/10

リンク

ブログやニュースの本文を抽出する方法 - 僕のススメ。

前回の記事で書いたようにはてまブックマークで学んだことを書いていこうと思う。参考URL 本文を抽出するために参考にしたサイトは以下。ブログの記事本文を抽出するスクリプトをつくってみたブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp) 実装 gooやYahoo!ではどんな風に実装されているんだろうと気になり、自分でもつくってみました。今回できたスクリプトでは28件中23件、8割の成功確率でした。NRIのレポートでも推定、とあるように人間が目で見て正解か確かめていくのはしんどいのでちょっとサンプル数は少なめ。 http://blog.zuzara.com/2006/06/06/84/ 80%って書いてあるんだけど、僕が試してみたところ思ったより成功率が悪かった。んで、調べてて見つかったのが句読点とかをカウントしてそれが一番多いところを本文として

seikenn 2009/12/08

リンク

Webstemmerによるブログの本文抽出 - FutureInsight.info

Pythonで記載されたレイアウト+diffベースで本文抽出を行うWebstemmerを用いてブログの本文抽出にチャレンジしました。いつも通り技術エントリーは非常に長いので、興味のある人だけ続きをごらん下さい。検索エンジンのフロントエンド部分の実装の目処がたったので、次はクローラ、インデクサの実装です。PythonにはTwistedという極めて優秀な非同期Webアプリケーションフレームワークがあるので、クローラを記載することは全く難しくありません。この辺りはPythonクックブックの14章ウェブプログラミングを参照して下さい。Python クックブック第2版鴨澤眞夫當山仁健吉田聡おすすめ平均リファレンスとセットで 2.5以降対応版の第3版を Amazonで詳しく見る by G-Toolsさて、クローラ部分の目処は立ったとして、問題はインデクサです。Luxを検索エンジンに使

seikenn 2009/12/06

リンク

ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp)

zuzara.com を読んでいると、ブログの本文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが本文だろう、というアルゴリズム。 PHP で書かれたコードを Perl に移植しながら、もっと効率的なアルゴリズムが無いかを考えていました。まずは、『タグの数』ではなく、比率をで判定するように改良（？）しました。スコア = タグ除去後（length） / タグ除去前（length）タグが含まれていないときが最大値になるので、スコアは 1 が最大となります。タグの数よりもこっちの方が良さそうだったのだけど、コメント部分を抽出してしまう可能性が非常に高い。だめぽ。牛乳を飲みつつ考えていると（カルシウムを摂取して身長を伸ばす）、ひらめきましたよ！要は、長い文章を取り出せればいいのだから、句読

seikenn 2009/10/09

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

本文抽出に関するseikennのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス