http://github.com/tokuhirom/html--treebuilder--libxml/tree/masterWeb::Scraper で複雑な HTML をパーズしようとすると、HTML::TreeBuilder::XPath がボトルネックになることが知られており、Web::Scraper には libxml ブランチが存在する(http://d.hatena.n... 続きを読む
先日、Web::ScraperというPerlモジュールを初体験したのですが、これが非常に便利です。「今日のCPANモジュール」で紹介されているように、対話式のコマンドラインインターフェースがあって、これで実験しながらスケルトンを作成できるのも便利。Web::Scraperは... 続きを読む
Template::Refineというモジュールを見つけました。リンク先にある通り、ruleを使うことで簡単にテンプレートの値を置き換える事が出来ます。このモジュールの良い所は、テンプレートファイルにテンプレートエンジン専用の識別子を記述しなくて良い所。どうやっ... 続きを読む
めざまし占いカウントダウンを取得 http://search.cpan.org/dist/TRD-Uranai/ がいろいろひどすぎるので #!/usr/bin/perl use strict; use Web::Scraper; use URI; my $uri = URI->new("http://www.fujitv.co.jp/meza/uranai/"); my $scraper = scraper { proce... 続きを読む
Web::Scraperのshellでhistory補完 シェル | Web::Scraperのshellをhistoryから補完できるようにしてみました。 shell系は使わないと忘れてしまうので、historyがあったほうがいいかなと思って作ってみました。 ~/.scraperhistoryを作っておくと、historyが使え... 続きを読む
perlドキュメントねー,と思ったら use Web::Scraper; - 今日のCPANモジュール みたいな素敵なチュートリアルがあったのでいまさらながら使えるようになりました。サンプル群も参考になりました。 はてブのホッテントリから,タイトル,URL,キーワード,タグを... 続きを読む
まえに作ったWeb::Scraperのjavascriptバージョンwebscraper.jsとXPathをてきとうに作ってくれる機能を追加したwebscraperp.jsにHTMLのドキュメントから繰り返し部分をみつけてSITEINFOをつくるAutoPagerize Iteration Detectorみたいなみためをくっつけて、取... 続きを読む
Was macht Web::Scraper? Wie k�nnen wir Web::Scraper steuern? Anwendungen von Web::Scraper 続きを読む
id:miyagawa さんの Web::Scraper で、HTML::TreeBuilder::XPath の代わりに XML::LibXML を使うととても幸せになれそうなので実験してます。XML::LibXML に手を出す前に IRC で「tinyxpath とか htmlcxx とか使って xpath 周りを高速にしたい」とかボヤいてこ... 続きを読む
The sbox program encountered an error while processing this request. Please note the time of the error, anything you might have been doing at the time to trigger the problem, and forward the information to this site's Webmaster (webmaster@www... 続きを読む
The sbox program encountered an error while processing this request. Please note the time of the error, anything you might have been doing at the time to trigger the problem, and forward the information to this site's Webmaster (webmaster@www... 続きを読む
ニコニコ動画のタグごとにRSSを作るため、最初は以下のように正規表現でゴリゴリと処理していたが、イマイチ綺麗じゃない。 while($html =~ m{<p><a\s+href="watch/(\w+)">\s* <img\s+.*?src="(.*?)".*?>.*? <strong>((?:\d+分)?\s*\d+秒)</strong>.*? 再生:<s... 続きを読む
python -c "print''.join([chr(x) for x in 111&1101,110+~-~11,10^11*11,110+~-~11,-~101,-~11^11*11,~-110,111&11*11,11+11+10,11|~-0110,1-~11^11*11,10^11*11,-~11^11*11,110,101])" http://fooo.name/ からURL一覧を取り出すのにWeb::Scraper使ったけど、... 続きを読む
こんにちは、編集マンの久次です。 なんだかPerlのWeb::Scraperが便利すぎで、やばいです。 これまでWWW::Mechanizeでごにょごにょやっていたのですが、一気にいろんなものが解決しました。 それで、いろいろ書いていたら、HTML::TreeBuilderのlook_downという... 続きを読む
perl0.21_01 まで。0.21_01 Thu Oct 4 01:05:00 PDT 2007 - Added an experimental filter support (Thanks to hirose31, tokuhirom and Yappo for brainstorming)0.21 Wed Oct 3 10:37:13 PDT 2007 - Bumped up HTML::TreeBuilder dependency to fi... 続きを読む
Web::Scraper でやってみる。miyagawa++ #!/usr/bin/perl use strict; use warnings; use Web::Scraper; use URI; use utf8; use Encode; my $stuff = URI->new("http://www.tamagoya.co.jp/menu/menu.html"); my $scraper = scraper { process '//tr[@height=4... 続きを読む
Post to Twitter Post: Web Scraper Shibuya.pm tech talk #8 From: miyagawa, 12 months ago Web Scraper Shibuya.pm tech talk #8View SlideShare presentation or Upload your own. (tags: shibuya.pm perl) SlideShare Link close Web Scraper Shibuya.pm ... 続きを読む
というわけです。 #!/usr/bin/perl use Web::Scraper; use URI; my $t = scraper { process '//table[@summary="upinfo"]//tr', 'columns[]' => scraper { process '//td[2]', file_name => 'TEXT'; process '//td[3]', comment => 'TEXT'; process '//td[4]', ... 続きを読む
■ Web::Scraper 添削 16:01 Plagger::Plugin::CustomFeed::Script用のスクリプトとしてとらのあな通販新着チェックを書き直してみた - fubaはてな いろいろとつっこみどころのあるコードではあるんですが、とりあえず、decode_sjis してる部分は不要。Web::Scr... 続きを読む
はじめに 今回はXSSの脆弱性をチェックするPerlスクリプトを作成したいと思います。すべてのXSSによる脆弱性が回避できるわけではありませんが、テストコード作成のヒントになれば幸いです。 対象読者 Webアプリケーション開発者で、XSSのテストケースを作成し... 続きを読む