[B! Web-Scraper] wkbyshnbtkのブックマーク

scraper コマンドの LibXML 対応 & UserAgent 切り替え対応パッチ - Craftworks Tech Blog - Branch

先のエントリで HTML::TreeBuilder::LibXML を紹介しましたが、HTML::TreeBuilder::XPath と、LibXML は下記のように微妙に挙動が違うので、Web::Scraper 付属の scraper コマンドも LibXML を使うように変更しました。 HTML::TreeBuilder::LibXML を使うと、こう書けない a[@href=~"http"] 代わりにこう書く a[starts-with(@href,"http")]また、User Agent によって振り分けてるページも多いので、それも scraper コマンドで対応できるように、第二引数で User Agent 文字列を指定できるようにしました。パッチは以下です。 --- /usr/bin/scraper 2009-03-25 14:33:52.000000000 +0900 +

wkbyshnbtk 2009/03/25

リンク

Web::Scraper を HTML::TreeBuilder::LibXML で高速に - Craftworks Tech Blog - Branch

昨日、HTML::TreeBuilder::LibXML がリリースされました。 Web::Scraper を 16 倍速くする HTML::TreeBuilder::LibXML を書いた http://search.cpan.org/~tokuhirom/HTML-TreeBuilder-LibXML-0.01_02/ （デベロッパーリリース） http://search.cpan.org/~tokuhirom/HTML-TreeBuilder-LibXML-0.03/ 正式リリースされました。これまでも、Web::Scraper を XML::LibXML で爆速にする hack!などはあったのですが、 HTML::TreeBuilder::LibXML は Web::Scraper にパッチを当てる必要もなく、使う側で use して replace_original() を呼ぶだ

wkbyshnbtk 2009/03/25

リンク

tokuhirom blog

Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

wkbyshnbtk 2009/03/25

リンク

Web::Scraperではてブスクレイピング

自分のブログをブックマークしたひとのはてダをLDRで購読する事が多いので、scrapeしてURLを表示させてみる use URI; use Web::Scraper; use List::MoreUtils qw/uniq/; my $uri = URI->new('http://b.hatena.ne.jp/bookmarklist?url=http://blog.kzfmix.com'); my $scraper = scraper { process 'dt.bookmarker a', 'users[]'=> '@href'; }; my $res = $scraper->scrape($uri); print join "\n", map { s/b.hatena/d.hatena/;$_} uniq(@{$res->{users}}); あとはこの結果をGmailに送ればよいよ

wkbyshnbtk 2009/03/05

Web-Scraper

リンク

http://d.hatena.ne.jp/sei01/20090304

wkbyshnbtk 2009/03/05

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

wkbyshnbtk 2009/03/04

Web-Scraper

リンク

tokuhirom blog

Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

wkbyshnbtk 2009/02/27

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

wkbyshnbtk 2009/02/27

Web-Scraper

リンク

Web::Scraper を使う(続) - Tociyuki::Diary

昨日は、デイリーポータルZのアーカイブリストのページからエントリを抽出するときに XPath を使いました。ですが、../../p の部分がダサイので、CSS セレクタを使う方法を考えてみました。変更箇所は $entries の定義部分だけです。 my $entries = scraper { use utf8; #process q{//td/p/font[text() =~ /べつやく/]/../../p}, # 'entries[]' => $entry; process 'td>p', 'entries[]' => sub { my $h = $entry->scrape($_); ($h->{author} ||= '') =~ /べつやく/ ? $h : (); }; result 'entries'; }; コメントアウトした XPath 版 process では、テキスト

wkbyshnbtk 2009/02/27

Web-Scraper

リンク

はてなブログ | 無料ブログを作成しよう

2024夏休み旅行　神戸・2日目【前編】 zfinchyan.hatena blog.com ↑１日目はこちら 6:50 わたしと夫だけ先に起床前日に買っておいたお芋のパンで朝ごはん昨日の疲れからか、なかなか息子たちが起きてこなかったので、ゆっくり寝かせてから10:00にホテルの下にあるプレイゾーンに行って、パターゴルフやバス…

wkbyshnbtk 2009/02/27

Web-Scraper

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

wkbyshnbtk 2009/02/27

リンク

PlaggerとWeb::Scraperでアクセスランキングを出してみる - akihitoのログ置き場

久々にPlaってみました。アクセスログを集計して結果（上位10件）をRSSで出力するようにしてみました。処理の流れ（変に遠回りしてる気もしますが）ログファイルをもとにアクセス数をカウントアクセス数が多い順にソートページにアクセス Web::Scraperでスクレイピングしてtitleとメタタグのdescriptionを取得エントリーオブジェクトを生成エントリーオブジェクトをPlagger(Publish::Feed)に渡して出力そこまでスクリプト書いたんならPlaggerに渡さなくても（XML::Feed使え）．．．とか言われるかなぁ。まぁ一応やってみたんで。以下レシピとスクリプトです。 rank.yaml global: timezone: Asia/Tokyo plugins: - module: CustomFeed::Script - module: Subscr

wkbyshnbtk 2009/02/27

リンク

Big Sky :: Web::ScraperなんかでXPathやCSSセレクタを決める時に便利かもしれないツール作った

Web::Scraper使うときに、scraperコマンドを使って頑張る人もいれば、FirebugのDOMツリーで「XPathをコピー」とやっている人もいるでしょう。前者の場合、端末でスクロールアウトするHTMLを見ながらXPathをこさえて間違ったらズラズラズラ…と画面が流れて行ってしまいます。後者の場合は、CLASSやID属性を使わないXPathが出来上がってしまいます。映画に出てくるHackerの如く一発でXPathを決められればそれは素晴らしい事だと思いますが、いかんせん幾度か失敗しますよね。で、何回もXPathを確かめられるツールが欲しいなと思い、perl-GTK2で作ってみました。画面はこんな感じ引数に「http://b.hatena.ne.jp/」を付けて起動したらこんな感じ URLを変更して「Get」をクリックすれば再読み込みします。そして、はてなブックマークト

wkbyshnbtk 2009/02/27

試した。しかし、Gtk2のインストールで挫折。で、代用品→WebScraper IDE (for Firefox3)

リンク

本を読む IPA最新情報をPlaggerでフィード化

ひさしぶりにPlaggerいじり。 IPA最新情報を自分用フィードにして読もうと思い立った。そこでWeb::Scraper（>= 0.22）＋CustomFeed::Script。変更：2007-10-26: linkにas_stringを噛ませた。追記：2007-10-27: subtech - otsune's SnakeOil - それplagger前提だったらfollow_linkかfollow_xpathで出来るよ EnterFullTextナシで考えていたのですが、EntryFullTextするとPlagger::Date->parse_dwimしてくれるんですね。知らなかった。勉強になりました。 ipa-news.pl #!/usr/bin/perl use strict; use warnings; use URI; use Web::Scraper 0.22; use

wkbyshnbtk 2009/02/27

リンク

Web::ScraperとLWP::Simpleを使って画像掲示板的なサイトから画像を頂く | ブログが続かないわけ

wkbyshnbtk 2009/02/27

Web-Scraper

リンク

Web::Scraper で XPath と CSS セレクタを混ぜて使う例 - Tociyuki::Diary

Web::Scraper はいたれりつくせりの仕掛けが仕込んであって、便利ですね。私が、割と良く使っている機能は以下 2 つです。 process の第一引数に、CSS セレクタだけでなく、XPath も指定できます。ただし、XPath を指定するときは先頭を必ずスラッシュ(/)で始めなければいけません。 process の第二引数以降の、値をどこから取得するかを指定する部分に、コード・リファレンスを置くこともできます。これを使うと、DOM ツリー中の値を加工して抽出することができます。具体例として、デイリーポータルZのアーカイブ一覧の中からべつやくれいさんのエントリを抽出してみることにします。まず、アーカイブ・ページのエントリ部分を取り出してやると、こうなっています。 <TD width="580" valign="top" class="tx12px"> <P> <B><FONT c

wkbyshnbtk 2009/02/27

テキストによる抽出はXPathを使うのか

Web-Scraper

リンク

Web::Scraper - naoyaのはてなダイアリー

Today I've been thinking about what to talk in YAPC::EU (and OSCON if they're short of Perl talks, I'm not sure), and came up with a few hours of hacking with web-content scraping module using Domain Specific Languages. 使ってみたよ! #!/usr/local/bin/perl use strict; use warnings; use FindBin::libs; use URI; use Web::Scraper; use Encode; use List::MoreUtils qw/uniq/; my $links = scraper { process 'a.key

wkbyshnbtk 2009/02/27

Web-Scraper

リンク

hide-k.net#blog: Web::ScraperでCISCO RECORDSをスクレーピング

いまさらWeb::Scraperを使ってみました。使うネタがなかったのがスルーし続けた一番の理由だったのですが、それではいけないと思い、CISCO RECORDSの商品情報を取得するスクリプトという、僕以外誰も興味がないスクリプトを書いてみました。 cisco_scraper.pl #!/usr/bin/perl use strict; use warnings; use Web::Scraper; use URI; use YAML; use Data::Dumper; my $uri = shift; my %scraper; $scraper{'link'} = scraper { process 'a', 'name' => 'TEXT'; process 'a', 'uri' => sub { return URI->new_abs( $_->attr('href'), $u

wkbyshnbtk 2009/02/27

Web-Scraper

リンク

WWW::Mechanize::AutoPager+Web::Scraperで複数ページにまたがるデータを扱う - bits and bytes

AutoPagerizeのSITEINFOに含まれている、次のページへのリンクを示すXPathはAutoPagerize以外の用途でも使うことができます。 CPANにこのSITEINFOをパースすめたるの HTML::AutoPagerize - Utility to load AutoPagerize SITEINFO stuff というモジュールがあるのは知っていたのですが、ページのロードと次のページのURLの解決もやってくれる WWW::Mechanize::AutoPager - Automatic Pagination using AutoPagerize というモジュールがあるのはさっき知りました... このモジュールを使うと、MechanizeでロードしたページがAutoPagerizeのSITEINFOに記述されていれば、自動的にSITEINFOのnextLinkを参照して

wkbyshnbtk 2009/02/27

Web-Scraper

リンク

てきとうにクリックしたらてきとうにWeb::Scraperのコードを作ってくれるWebScraper IDE - bits and bytes

まえに作ったWeb::Scraperのjavascriptバージョンwebscraper.jsとXPathをてきとうに作ってくれる機能を追加したwebscraperp.jsにHTMLのドキュメントから繰り返し部分をみつけてSITEINFOをつくるAutoPagerize Iteration Detectorみたいなみためをくっつけて、取り出したい部分をクリックしたらてきとうにXPathを生成してWeb::Scraperのコードにして出してくれるFirefoxのextensionを作りました。Firefox3専用です。ごめんなさい。ダウンロード WebScraper IDE (for Firefox3) 使い方今回もいつもお世話になっているスターバックスさんの店舗検索結果(住所・店名・条件から探す)を例に使い方をご紹介します。 WebScraper IDEをインストールするとツールメニュ

wkbyshnbtk 2009/02/27

試した。使い方も簡単。素晴らしい。

Web-Scraper

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

Web-Scraperに関するwkbyshnbtkのブックマーク (32)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス