タグ

本文抽出に関するseikennのブックマーク (8)

  • ブログの本文抽出 - プログラマでありたい

    必要に迫られて、ブログの文抽出をしたいと思います。2年前くらいにも少し試みたことがあるのですが、ソース消失。。。 アプローチとして、2つの方法があると思います。 ・各ブログサービス(livedoor、ameba、hatena等々)ごとの構造を解析して、それぞれ専用のモジュールを作る 長所としては、抽出の精度が高くなる。 短所としては、ブログの構成が変わる度にバージョンアップの必要がある。 作成するモジュールが多い。対応外のブログはお手上げ。 ・RSSのdescription等を活用して文部分を推定する、汎用モジュールを作る 長所としては、一つのモジュールのみ保守すれば良い。対象のブログサービスの構成が変わっても影響がない(はず) 短所としては、抽出精度の限界がある。おそらく90%くらいが限界か 世の中の事例を見ていると、2番目のアプローチが多いようです。有名どころをピックアップ Cee

    ブログの本文抽出 - プログラマでありたい
  • ブログの記事本文を抽出するAPI: TSUBUAN

    KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス: http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。 以前あった、ceekzさんのアイディアも使わせ

  • SEO:サイトフッターへの過剰なリンク設置に注意 ::SEM R (#SEMR)

    SEO:サイトフッターへの過剰なリンク設置に注意 フッターリンクへの過剰なリンクやキーワード設置は推奨されない。 公開日時:2011年01月05日 13:11 SEOを意識するあまり、サイト内リンクの最適化の一環として、ヘッダーやフッター、サイドナビなどの様々な場所に、過剰にキーワードを詰め込んだリンクを設置したり、あるいは、明らかにユーザを無視した、検索エンジンだけのための大量のリンクを設置しているサイトも見受けられる。 過去に米Googleウェブスパムチーム・Matt Cutts(マット・カッツ)氏は、サイト解析を通じて、"テンプレート"(サイト共通部品)と見受けられるブロックを検出し、かつ、それが全体的に低価値なパターンの傾向を示している場合は、相応に評価を行わないという説明をしている(参考:「同じHTMLテンプレートから無価値のページを探す」)。 さて、Google Webmast

    SEO:サイトフッターへの過剰なリンク設置に注意 ::SEM R (#SEMR)
  • [B! 本文抽出] denkenのブックマーク

    日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの文抽出 using CRF」の資料(自己紹介は除く)です。 以前、Ruby で作った文抽出モジュール を機械学習技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】

  • RSSフィードを全文配信で読む まるごとRSS

    無効なURLです。 プログラム設定の反映待ちである可能性があります。 しばらく時間をおいて再度アクセスをお試しください。

  • ブログやニュースの本文を抽出する方法 - 僕のススメ。

    前回の記事で書いたようにはてまブックマークで学んだことを書いていこうと思う。 参考URL 文を抽出するために参考にしたサイトは以下。 ブログの記事文を抽出するスクリプトをつくってみた ブログの文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp) 実装 gooやYahoo!ではどんな風に実装されているんだろうと気になり、自分でもつくってみました。今回できたスクリプトでは28件中23件、8割の成功確率でした。NRIのレポートでも推定、とあるように人間が目で見て正解か確かめていくのはしんどいのでちょっとサンプル数は少なめ。 http://blog.zuzara.com/2006/06/06/84/ 80%って書いてあるんだけど、僕が試してみたところ思ったより成功率が悪かった。んで、調べてて見つかったのが句読点とかをカウントしてそれが一番多いところを文として

    ブログやニュースの本文を抽出する方法 - 僕のススメ。
  • Webstemmerによるブログの本文抽出 - FutureInsight.info

    Pythonで記載されたレイアウト+diffベースで文抽出を行うWebstemmerを用いてブログの文抽出にチャレンジしました。いつも通り技術エントリーは非常に長いので、興味のある人だけ続きをごらん下さい。 検索エンジンのフロントエンド部分の実装の目処がたったので、次はクローラ、インデクサの実装です。PythonにはTwistedという極めて優秀な非同期Webアプリケーションフレームワークがあるので、クローラを記載することは全く難しくありません。この辺りはPythonクックブックの14章ウェブプログラミングを参照して下さい。Python クックブック 第2版鴨澤 眞夫 當山 仁健 吉田 聡 おすすめ平均 リファレンスとセットで 2.5以降対応版の第3版を Amazonで詳しく見る by G-Toolsさて、クローラ部分の目処は立ったとして、問題はインデクサです。Luxを検索エンジンに使

    Webstemmerによるブログの本文抽出 - FutureInsight.info
  • ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp)

    zuzara.com を読んでいると、ブログの文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが文だろう、というアルゴリズム。 PHP で書かれたコードを Perl に移植しながら、もっと効率的なアルゴリズムが無いかを考えていました。 まずは、『タグの数』ではなく、比率をで判定するように改良(?)しました。 スコア = タグ除去後(length) / タグ除去前(length) タグが含まれていないときが最大値になるので、スコアは 1 が最大となります。タグの数よりもこっちの方が良さそうだったのだけど、コメント部分を抽出してしまう可能性が非常に高い。だめぽ。 牛乳を飲みつつ考えていると(カルシウムを摂取して身長を伸ばす)、ひらめきましたよ!要は、長い文章を取り出せればいいのだから、句読

  • 1