[B! scraping] SriVidyutのブックマーク

http://www.rcdtokyo.com/etc/htmlscraping/

SriVidyut 2007/09/22

リンク

ブログが続かないわけ | Web::Scraper 使い方(超入門)

３年前にこの本に出会って、僕はスクレーピングの虜になった。おかげで正規表現をたくさん書く機会が得られたし、CPANのモジュールともたくさん触れ合うことができたし、さらに自分自身でも構造化されたHTMLを書く習慣も身についた。ただ、やっぱり、スクレーピングは簡単ではない部分もたくさんあると思う。文字コードについても意識しなければならないし、なにより正規表現で必要な部分を抽出することそのものが結構骨のいる作業だ。HTML::TreeBuilder を使った方がいいのか、それとも正規表現だけでやったほうが楽なのか。そんなことを考慮しながらコーディングして行く。そこがスクレーピングの楽しいところでもあるのだが、そこがスクレーピングの敷居を高いものにしていることも否めない。そんな、愛らしくもあり憎たらしくもあるスクレーピングを簡単にやってしまうのがこのモジュール、Web::Scraper だ。

SriVidyut 2007/09/15

リンク

nakatani @ cybozu labs

Perceptron の実装です、と言ってからずいぶん経ってしまいましたが、ようやくその続き……と思わせておいて、実はブログの移転のお知らせです。サイボウズグループ全体の技術ブログとして Cybozu Inside Out が立ち上がり、こちらの "nakatani @ cybozu labs" で書いていたような記事も今後そちらで書かせていただくことになりました。第１回目の記事として、Perceptron の実装編として、O.Henry と Edgar Allan Poe の文章を Perceptron で学習して正しく見分けられるか！？　という記事を書かせていただきましたので、よろしければごらんください。コンピュータはオー・ヘンリーとエドガー・アラン・ポーの文章を見分けられるか？ - Cybozu Inside Out サイトは変わりますが、これからも引き続きよろしくお願いいたし

SriVidyut 2007/09/14

scraping

リンク

phpによるスクレイピング処理入門

1. はじめにこのサイトは php を利用したスクレイピング処理の具体的手法について記載されたサイトにしようと思っています。なので、あまり面白いサイトではありません。内容も偏重していることと思いますが、ご質問などがございましたら、りょーちまでご連絡ください。 1.1. スクレイピングとはスクレイピングの話しを始める前に、現在のWebサービスについて幾つか言及しておきます。現在様々な会社が様々なWebサービスを展開しています。かなり昔、今よりWebサイトそのものが少ない頃の時代は、HTMLファイルを手動で作成することが殆どでした。しかし、現在はバックグラウンドにデータベースが存在し、データベースの内容を動的に表示し、ページを作成するようなサイトがかなり多くなっています。さて、データベースを利用するメリットは何でしょうか？幾つかの視点が挙げられると思います。最も重要な点は、ひとつひ

SriVidyut 2007/08/15

programming

scraping
php

リンク

進化する“Webスクレイピング”技術の世界 ― ＠IT

2007/02/20 WebサービスのAPIやRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogle、Yahoo!、楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLやCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング”技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

SriVidyut 2007/08/15

programming

リンク

developer0000.jp

SriVidyut 2007/08/15

programming

リンク

スクレイピングはもっと簡単にならなければいけない - bits and bytes

スクレイピングをやったことがあるひとならばわかると思うけど、スクレイピングはとてもつまらない作業だ。 HTMLの中から抜き出したい部分を見つけて、その周辺にある特徴的な部分に着目して正規表現を書いたりして抜き出す。あるいはHTMLからDOMを生成して特定のクラスがついているエレメントを抜き出したりする。HTMLをXHTMLに整形、変換してXPathで抜き出す方法もある。どの方法もやることは単純で簡単なことだけれど、極めてめんどくさい。そういうものだと思って数年間過ごしてきたけれど、去年の夏に出てきた Dapper: The Data Mapper は、そんな退屈な常識をモダーンなajaxでもって吹き飛ばした。もしDapperがどんなのなのか知らなかったら、ちょっと長くてはじめ退屈なんだけどデモムービーを見てみてください。 Dapperが教えてくれたことは、スクレイピングなんて、欲し

SriVidyut 2007/08/15

programming

リンク

スクレイピングでタイムラインを1日分とか拾う - rytich's diary

APIを使っても過去にさかのぼってuser_timelineを拾ってこれないのでPHPで直接Webを読んで1日分とか前回ひろった最後のidまでとかいただきます。うごかすと$value['description']に抜き出したデータのHTMLが入ります。 //ここでPOST のとこでメールに送るなりXML-RPCなりコロしてくださいストーキングとか彼氏の監視に便利です HTTP_Clientを使ってますかなりファンキー(特に正規表現部分)なのですぐに使えんくなるかもなので、エラー処理のとこでメール通知とかしたらいいかもソース require_once "HTTP/Client.php"; $account = "rytich"; //抜き出すアカウント $max_page = 11; //最大何ページ分スクレイピングするか $validDatetime = true; //時間を表

SriVidyut 2007/08/15

[programming] programming

php
scraping

リンク

phpによるスクレイピング処理入門:7. 例2.為替レートを取得してみる

今回は、為替レートをスクレイピングにより取得してみましょう。といっても、実際は為替レートが表示されているHTMLファイルをスクレイピングし、該当箇所を抜き出すだけなので、基本は殆ど同じです。今回利用するサイトはひまわり証券株式会社ブログパーツ FXレートウォッチャーです。元がブログパーツなので、取得するHTMLファイルの容量も少なくてよさそうなので、今回は、このサイトを利用してみます。上記のサイトでは、<IFRAME>タグを利用して、パーツを表示するタイプです。なので、<IFRAME>タグのsrcのアトリビュートで指定されている、を対象にしてみます。サンプルソースを見ながら解説を進めます。 rate.php proxy.php ではプログラムを見てみましょう。前回のはてなフォトライフではスクレイピング対象となるHTMLファイルを動的に変化させましたが、今回は固定ですね。3行目の

SriVidyut 2007/08/15

リンク

http://www.rcdtokyo.com/ucb/contents/i000851.php

SriVidyut 2007/08/15

リンク

HTMLをスクレイピングして解析(パース)する - まるさんかくしかく Tech学習と入門ログ

Twitter Facebook B! Bookmark LINE Pocket Feedly HTMLをスクレイピング(scraping)してあれこれとするとき、僕はずっと正規表現に頼っていたのですが、ページの構造が変化するとすぐに使えなくなってしまうし、時間がかかる割りに退屈な作業なので何とかならないかなと思っていました。 PHPで探していたのですが、XML(とかRSS)をパースする関数やライブラリは、良く目にするものの、HTMLを処理できるものはなかなか見つかりませんでした。以下は、PHP(とかRuby、Perl)でHTMLをスクレイピングしたりパースするための方法。 PHPでスクレイピング＆パース HTMLを整形式のXML文書に修正するPHPクラス HTMLを、整形式のXMLに変換してくれるライブラリ。PEARのXML_HTMLSax3が同梱されているので、これだけでちゃんと動

SriVidyut 2007/08/15

リンク

Tidy

Tidy is a console application for macOS, Linux, Windows, UNIX, and more. It corrects and cleans up HTML and XML documents by fixing markup errors and upgrading legacy code to modern standards. libtidy is a C static and dynamic library that developers can integrate into their applications in order to bring all of Tidy’s power to your favorite tools. libtidy is used today in desktop applications, we

SriVidyut 2007/08/15

HTML Tidy

リンク

extbody -- Blog&News本文領域抽出ツール

ダウンロード等 extbody-0.1.1.tar.gz(右クリックで保存）ライセンスは、Apacheライセンスv2.0なので自己責任でご利用ください。（上記ファイルはMercurialリポジトリのcloneにもなっています。）動作に必要な環境 Python2.5 feedparser chardet また、内部でppkfを使用しております。(extbodyに内蔵しております。）インストール feedparserと、chardetをインストールしておきます。以上が準備できれば、extbodyも以下のコマンドでインストールできます。 % python setup.py install 使用法 ayu@~% python Python 2.5.1 (r251:54863, Jun 17 2007, 08:50:55) [GCC 4.0.1 (Apple Computer,

SriVidyut 2007/08/13

リンク

記録: extbody -- PythonによるBlog&News本文領域抽出ツール

Pythonで、BlogやニュースのWEBページから、本文領域のHTMLを抽出するツール extbody -- Blog&News本文領域抽出ツールを作りましたので公開します。いつものごとくα版です。（そろそろいいかげんに、ひとつひとつきっちりと作ったほうがいいよね。）以前から、他のアプリの一部として使っていたものを分離してモジュールにまとめたものです。 * 正解率8割程度。（2ch抜粋系blogにはめっぽう弱いです。） * 日英対応。です。中身は試行錯誤が複雑にからまった呪文のようなソースになっておりますことをご了承ください。最初はPython標準のHTMLパーサーや、有名なBeautifulSoupを使ってましたが、時折解析できないHTMLがありましたので、結局自筆の正規表現で解析しています。おおざっぱにtableタグとdivタグぐらいの対応が少なくとも合っているソースで

SriVidyut 2007/08/13

リンク

ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp)

zuzara.com を読んでいると、ブログの本文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが本文だろう、というアルゴリズム。 PHP で書かれたコードを Perl に移植しながら、もっと効率的なアルゴリズムが無いかを考えていました。まずは、『タグの数』ではなく、比率をで判定するように改良（？）しました。スコア = タグ除去後（length） / タグ除去前（length）タグが含まれていないときが最大値になるので、スコアは 1 が最大となります。タグの数よりもこっちの方が良さそうだったのだけど、コメント部分を抽出してしまう可能性が非常に高い。だめぽ。牛乳を飲みつつ考えていると（カルシウムを摂取して身長を伸ばす）、ひらめきましたよ！要は、長い文章を取り出せればいいのだから、句読

SriVidyut 2007/08/13

リンク

ブログの記事本文を抽出するAPI: TSUBUAN

KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる本文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス： http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。以前あった、ceekzさんのアイディアも使わせ

SriVidyut 2007/08/13

programming

リンク

zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた

ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術 Yahoo!検索スタッフブログ　Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発　ブログ記事の自動分類により消費者意識の側面を捉える試み（PDF）なんでもRSS! HTML文書からのRSS Feed 自動生成　南野朋之奥村学：人工知能学会研究会資料 SIG-SW

SriVidyut 2006/06/09

crawler

php
scraping

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

scrapingに関するSriVidyutのブックマーク (17)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス