[B! web-scraper] webmarksjpのブックマーク

webmarksjp id:webmarksjp

web-scraperに関するwebmarksjpのブックマーク (3)

ブログが続かないわけ | Web::Scraper 使い方(超入門)
３年前にこの本に出会って、僕はスクレーピングの虜になった。おかげで正規表現をたくさん書く機会が得られたし、CPANのモジュールともたくさん触れ合うことができたし、さらに自分自身でも構造化されたHTMLを書く習慣も身についた。ただ、やっぱり、スクレーピングは簡単ではない部分もたくさんあると思う。文字コードについても意識しなければならないし、なにより正規表現で必要な部分を抽出することそのものが結構骨のいる作業だ。HTML::TreeBuilder を使った方がいいのか、それとも正規表現だけでやったほうが楽なのか。そんなことを考慮しながらコーディングして行く。そこがスクレーピングの楽しいところでもあるのだが、そこがスクレーピングの敷居を高いものにしていることも否めない。そんな、愛らしくもあり憎たらしくもあるスクレーピングを簡単にやってしまうのがこのモジュール、Web::Scraper だ。
webmarksjp 2008/07/13
Perl

スクレイピング

web-scraper

scraping

あとで
リンク
Web::Scraperのjavascriptバージョンwebscraper.js - bits and bytes
perlのWeb::Scraperみたいな記述で、ページの中からデータを取り出すwebscraper.jsという小さなjavascriptのライブラリを書きました。ブックマークレットデータを取り出したいページでブックマークレットでwebscraper.jsを読み込んでFirebugコンソールで使います。ブックマークレット webscraper コードwebscraper.js つかいかた Web::ScraperのSYNOPSISで例としてあげられているebayでapple ipod nanoを検索した結果からデータを取り出すときは検索結果ページで上のブックマークレットを呼び出してFirebugコンソールで取り出す部分を記述します。こんなかんじ。 SYNOPSISのperlのコードで変数$ebay_auctionに一度代入されている部分をそのままインラインで書き直すと my $e
webmarksjp 2008/07/13
webscraper

javascript

xpath

web-scraper

library

4
リンク
WWW::Mechanize::AutoPager+Web::Scraperで複数ページにまたがるデータを扱う - bits and bytes
AutoPagerizeのSITEINFOに含まれている、次のページへのリンクを示すXPathはAutoPagerize以外の用途でも使うことができます。 CPANにこのSITEINFOをパースすめたるの HTML::AutoPagerize - Utility to load AutoPagerize SITEINFO stuff というモジュールがあるのは知っていたのですが、ページのロードと次のページのURLの解決もやってくれる WWW::Mechanize::AutoPager - Automatic Pagination using AutoPagerize というモジュールがあるのはさっき知りました... このモジュールを使うと、MechanizeでロードしたページがAutoPagerizeのSITEINFOに記述されていれば、自動的にSITEINFOのnextLinkを参照して
webmarksjp 2008/07/12
webscraper

Mechanize

autopagerize

perl

web-scraper
リンク
1