[B! scraping][perl] lesamoureusesのブックマーク

lesamoureuses id:lesamoureuses

scrapingとperlに関するlesamoureusesのブックマーク (6)

Web::Query now supports ->parent and ->size - tokuhirom's blog
lesamoureuses 2011/02/24
おぉぉ。あるliを基準に他のliを取得するみたいなのを良くやるので嬉しい。

web-query

scraping

perl
リンク
perl - HTMLをXMLとして扱う : 404 Blog Not Found
2009年02月19日08:30 カテゴリLightweight Languages perl - HTMLをXMLとして扱うそのXML::Liberalが test でこけまくっていたところから旅が始まった。ゆーすけべー日記: 壊れた Premiere (映像編集ソフト) のプロジェクトファイルが XML::Liberal (Perlモジュール) で直ったということは、なんとかして壊れたプロジェクトファイルを「well formed」な XML にすればいいじゃないのか！と思ったわけ。そこで活躍したのが「XML::Liberal」という miyagawa プロダクトな Perl モジュール。やりたかったのは、XHTMLでないHTMLを、XML::*なモジュールで扱うこと。例えばXML::LibXMLを使えば、JavaScriptみたいな感覚でDOMを操作できるし、XML::Sim
lesamoureuses 2009/02/20
＞。HTMLを直に操作するより高速なのだ。HTML::DOMというモジュールがあるのだが、これを使うより、XHTMLにしてからXML::LibXMLを使った方が速いのだ。

perl

html-dom

xml-libxml

parser

scraping

samplecode
リンク
Web::Scraper で XPath と CSS セレクタを混ぜて使う例 - Tociyuki::Diary
Web::Scraper はいたれりつくせりの仕掛けが仕込んであって、便利ですね。私が、割と良く使っている機能は以下 2 つです。 process の第一引数に、CSS セレクタだけでなく、XPath も指定できます。ただし、XPath を指定するときは先頭を必ずスラッシュ(/)で始めなければいけません。 process の第二引数以降の、値をどこから取得するかを指定する部分に、コード・リファレンスを置くこともできます。これを使うと、DOM ツリー中の値を加工して抽出することができます。具体例として、デイリーポータルZのアーカイブ一覧の中からべつやくれいさんのエントリを抽出してみることにします。まず、アーカイブ・ページのエントリ部分を取り出してやると、こうなっています。 <TD width="580" valign="top" class="tx12px"> <P> <B><FONT c
lesamoureuses 2007/08/29
Web::ScraperでXPathを使う。デイリーの例。

web-scraper

cpan

scraping

scraper

perl

xpath

css
リンク
Web::Scraper便利! - はこべにっき ♨
naoyaのはてなダイアリー - Web::Scraperを見て。これはよさそう。ソース読んでみると単純に値を取得する以外にも、どうやら、配列で結果を受け取ったり、サブルーチンを渡して処理を委譲したりできるようなので、ためしにやってみよう。 use strict; use warnings; use Web::Scraper; use URI; use YAML; use Encode; my %result; sub parse_title { my $node = shift; my $text = $node->as_text; my $left = decode_utf8('『'); my $right = decode_utf8('』'); my ($nth, $title, $date) = $text =~ m/^\[(.*?)\]\s+$left(.*?)$right(.
lesamoureuses 2007/08/29
使い方。サブルーチンを渡すとか。

scraper

perl

scraping

cpan

web-scraper
リンク
ブログが続かないわけ | Web::Scraper 使い方(超入門)
３年前にこの本に出会って、僕はスクレーピングの虜になった。おかげで正規表現をたくさん書く機会が得られたし、CPANのモジュールともたくさん触れ合うことができたし、さらに自分自身でも構造化されたHTMLを書く習慣も身についた。ただ、やっぱり、スクレーピングは簡単ではない部分もたくさんあると思う。文字コードについても意識しなければならないし、なにより正規表現で必要な部分を抽出することそのものが結構骨のいる作業だ。HTML::TreeBuilder を使った方がいいのか、それとも正規表現だけでやったほうが楽なのか。そんなことを考慮しながらコーディングして行く。そこがスクレーピングの楽しいところでもあるのだが、そこがスクレーピングの敷居を高いものにしていることも否めない。そんな、愛らしくもあり憎たらしくもあるスクレーピングを簡単にやってしまうのがこのモジュール、Web::Scraper だ。
lesamoureuses 2007/07/22
Synopsysの説明

scraping

perl

cpan

web-scraper
リンク
Web::Scraper - naoyaのはてなダイアリー
Today I've been thinking about what to talk in YAPC::EU (and OSCON if they're short of Perl talks, I'm not sure), and came up with a few hours of hacking with web-content scraping module using Domain Specific Languages. 使ってみたよ! #!/usr/local/bin/perl use strict; use warnings; use FindBin::libs; use URI; use Web::Scraper; use Encode; use List::MoreUtils qw/uniq/; my $links = scraper { process 'a.key
lesamoureuses 2007/05/22
これは便利だなぁ。その辺のHTMLを取ってきて加工するのも楽だなぁ

cpan

miyagawa

naoya

perl

scraping

web-scraper
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx