[B! webscraper][programming] satojkovicのブックマーク

satojkovic id:satojkovic

webscraperとprogrammingに関するsatojkovicのブックマーク (12)

今日のCPANモジュール（跡地）目次
Redirecting… Click here if you are not redirected.
satojkovic 2008/05/11
perl

programming

mechanize
リンク
Web::Scraperのjavascriptバージョンwebscraper.js - bits and bytes
perlのWeb::Scraperみたいな記述で、ページの中からデータを取り出すwebscraper.jsという小さなjavascriptのライブラリを書きました。ブックマークレットデータを取り出したいページでブックマークレットでwebscraper.jsを読み込んでFirebugコンソールで使います。ブックマークレット webscraper コードwebscraper.js つかいかた Web::ScraperのSYNOPSISで例としてあげられているebayでapple ipod nanoを検索した結果からデータを取り出すときは検索結果ページで上のブックマークレットを呼び出してFirebugコンソールで取り出す部分を記述します。こんなかんじ。 SYNOPSISのperlのコードで変数$ebay_auctionに一度代入されている部分をそのままインラインで書き直すと my $e
satojkovic 2008/02/16
webscraper

javascript

programming
リンク
WWW::Mechanize::AutoPager+Web::Scraperで複数ページにまたがるデータを扱う - bits and bytes
AutoPagerizeのSITEINFOに含まれている、次のページへのリンクを示すXPathはAutoPagerize以外の用途でも使うことができます。 CPANにこのSITEINFOをパースすめたるの HTML::AutoPagerize - Utility to load AutoPagerize SITEINFO stuff というモジュールがあるのは知っていたのですが、ページのロードと次のページのURLの解決もやってくれる WWW::Mechanize::AutoPager - Automatic Pagination using AutoPagerize というモジュールがあるのはさっき知りました... このモジュールを使うと、MechanizeでロードしたページがAutoPagerizeのSITEINFOに記述されていれば、自動的にSITEINFOのnextLinkを参照して
satojkovic 2008/02/06
webscraper

perl

programming
リンク
Sbox Error
The sbox program encountered an error while processing this request. Please note the time of the error, anything you might have been doing at the time to trigger the probl em, and forward the information to this site's Webmaster (webmaster@www.ac.cyberhome.ne.jp).Stat failed. /usr/local/apache2/cgi-bin/~mattn: No such file or directory sbox version 1.10 $Id: sbox.c,v 1.16 2005/12/05 14:58:01 lstein
satojkovic 2007/12/06
webscraper

programming

perl
リンク
Sbox Error
The sbox program encountered an error while processing this request. Please note the time of the error, anything you might have been doing at the time to trigger the probl em, and forward the information to this site's Webmaster (webmaster@www.ac.cyberhome.ne.jp).Stat failed. /usr/local/apache2/cgi-bin/~mattn: No such file or directory sbox version 1.10 $Id: sbox.c,v 1.16 2005/12/05 14:58:01 lstein
satojkovic 2007/11/29
webscraper

perl

programming
リンク
Web::Scraper - naoyaのはてなダイアリー
Today I've been thinking about what to talk in YAPC::EU (and OSCON if they're short of Perl talks, I'm not sure), and came up with a few hours of hacking with web-content scraping module using Domain Specific Languages. 使ってみたよ! #!/usr/local/bin/perl use strict; use warnings; use FindBin::libs; use URI; use Web::Scraper; use Encode; use List::MoreUtils qw/uniq/; my $links = scraper { process 'a.key
satojkovic 2007/11/24
webscraper

programming
リンク
Web::Scraperを使って、物件一覧をGoogle Mapsにマッピング : cotalog
福岡ファミリー向け物件特集！: ファミリー物件を見ていて、これはいいな、RSS登録するか。と思ったのですが、このRSSはどうやら福岡の不動産情報探し・お部屋探しサイト「ムビマップ福岡」：こだわりの物件特集[賃貸版]: 物件一覧のようで、僕にはいらん情報も混じっておりました。で、話題のWeb::Scraperでスクレイピングしてみるか。ついでに取得した一覧はGoogle Mapsにマッピングしてやるか。というエントリです。 http://fooo.name/ からURL一覧を取り出すのにWeb::Scraper使ったけど、これは良いね scraper http://fooo.name/accounts/otsune してsでソース見てそれっぽくXPath書いてdumpして、データが取れてたらcでソース出して終了。イカス。を参考にさせてもらいました。まずは、 $ scraper ht
satojkovic 2007/11/24
webscraper

programming

Plagger
リンク
[webscraper]Web::Scraperでニコニコ動画のタグ検索をRSSフィードに
はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28
satojkovic 2007/11/20
perl

webscraper

programming
リンク
本を読む IPA最新情報をPlaggerでフィード化
ひさしぶりにPlaggerいじり。 IPA最新情報を自分用フィードにして読もうと思い立った。そこでWeb::Scraper（>= 0.22）＋CustomFeed::Script。変更：2007-10-26: linkにas_stringを噛ませた。追記：2007-10-27: subtech - otsune's SnakeOil - それplagger前提だったらfollow_linkかfollow_xpathで出来るよ EnterFullTextナシで考えていたのですが、EntryFullTextするとPlagger::Date->parse_dwimしてくれるんですね。知らなかった。勉強になりました。 ipa-news.pl #!/usr/bin/perl use strict; use warnings; use URI; use Web::Scraper 0.22; use
satojkovic 2007/10/27
webscraper

Plagger

perl

programming
リンク
ブログが続かないわけ | Web::Scraper 使い方(超入門)
３年前にこの本に出会って、僕はスクレーピングの虜になった。おかげで正規表現をたくさん書く機会が得られたし、CPANのモジュールともたくさん触れ合うことができたし、さらに自分自身でも構造化されたHTMLを書く習慣も身についた。ただ、やっぱり、スクレーピングは簡単ではない部分もたくさんあると思う。文字コードについても意識しなければならないし、なにより正規表現で必要な部分を抽出することそのものが結構骨のいる作業だ。HTML::TreeBuilder を使った方がいいのか、それとも正規表現だけでやったほうが楽なのか。そんなことを考慮しながらコーディングして行く。そこがスクレーピングの楽しいところでもあるのだが、そこがスクレーピングの敷居を高いものにしていることも否めない。そんな、愛らしくもあり憎たらしくもあるスクレーピングを簡単にやってしまうのがこのモジュール、Web::Scraper だ。
satojkovic 2007/09/13
webscraper

perl

programming
リンク
hide-k.net#blog: Web::ScraperでCISCO RECORDSをスクレーピング
いまさらWeb::Scraperを使ってみました。使うネタがなかったのがスルーし続けた一番の理由だったのですが、それではいけないと思い、CISCO RECORDSの商品情報を取得するスクリプトという、僕以外誰も興味がないスクリプトを書いてみました。 cisco_scraper.pl #!/usr/bin/perl use strict; use warnings; use Web::Scraper; use URI; use YAML; use Data::Dumper; my $uri = shift; my %scraper; $scraper{'link'} = scraper { process 'a', 'name' => 'TEXT'; process 'a', 'uri' => sub { return URI->new_abs( $_->attr('href'), $u
satojkovic 2007/09/06
programming

webscraper

perl
リンク
Web::Scraper ? SlideShare
The document discusses practical web scraping using the Web::Scraper module in Perl. It provides an example of scraping the current UTC time from a website using regular expressions, then refactors it to use Web::Scraper for a more robust and maintainable approach. Key advantages of Web::Scraper include using CSS selectors and XPath to be less fragile, and proper handling of HTML encoding.Read les
satojkovic 2007/09/04
perl

webscraper

programming
リンク
1