http://github.com/tokuhirom/html--treebuilder--libxml/tree/masterWeb::Scraper で複雑な HTML をパーズしようとすると、HTML::TreeBuilder::XPath がボトルネックになることが知られており、Web::Scraper には libxml ブランチが存在する(http://d.hatena.n... 続きを読む
id:miyagawa さんの Web::Scraper で、HTML::TreeBuilder::XPath の代わりに XML::LibXML を使うととても幸せになれそうなので実験してます。XML::LibXML に手を出す前に IRC で「tinyxpath とか htmlcxx とか使って xpath 周りを高速にしたい」とかボヤいてこ... 続きを読む
Web::Scraper with filters, and thought about Text filters A developer release of Web::Scraper is pushed to CPAN, with "filters" support. Let me explain how this filters stuff is useful for a bit.Since an early version, Web::Scraper has been h... 続きを読む
昨日のリニューアルに対応した0.07をCPANにアップしました。手元のlive testsは全部パスしていますが、環境によってはまだうまくとれないものがあるかもしれません。おかしなところを見つけた方はcodereposにコミットするか、立場上おおっぴらにコミットするわ... 続きを読む
はじめに 今回はXSSの脆弱性をチェックするPerlスクリプトを作成したいと思います。すべてのXSSによる脆弱性が回避できるわけではありませんが、テストコード作成のヒントになれば幸いです。 対象読者 Webアプリケーション開発者で、XSSのテストケースを作成し... 続きを読む
This is inspired by an email from Renée Bäcker asking how to get content inside javascript tag. Because Web::Scraper's 'TEXT' mapping calls as_text method of HTML::Element, it doesn't get the content inside script and style tag. Here's the co... 続きを読む
Post to Twitter Post: Web::Scraper From: miyagawa, 2 years ago Web::ScraperView SlideShare presentation or Upload your own. (tags: yapc yapceu07) SlideShare Link close Web::Scraper 12730 views | 4 comments | 16 favorites | 403 downloads... 続きを読む
いささか出遅れた感があるけれど、Web::ScraperやXPathの練習代わりに書いてみた。使い方はこんな感じ。 use WWW::Mixi::Scraper; my $mixi = WWW::Mixi::Scraper->new( email => 'foo@bar.com', password => 'password' ); my @list = $mixi->parse('http://mi... 続きを読む
■ 認証の必要なページで Web::Scraper 18:38 ふつうに Mech つかって content を渡せばよい。 use WWW::Mechanize; use WWW::Mechanize::DecodedContent; use Web::Scraper; my $mech = WWW::Mechanize->new; my $s = scraper { ... }; ... my $res = $s->scra... 続きを読む
Today I've been thinking about what to talk in YAPC::EU (and OSCON if they're short of Perl talks, I'm not sure), and came up with a few hours of hacking with web-content scraping module using Domain Specific Languages.Journal of miyagawa (16... 続きを読む