MOZZのブックマーク / 2008年5月21日 - はてなブックマーク

MOZZ id:MOZZ

2008年5月21日のブックマーク (5件)

https://labs.cybozu.co.jp/blog/kazuho/archives/2007/04/gungho.php
MOZZ 2008/05/21
crawler

gungho

perl
リンク
Gungho::Inlineを使ってみる - file-glob こと k.daibaの日記
Gungho::Inlineを使ってみる Gungho，悪戦苦闘しています．ちょっと試してみるにはGungho::Inlineを使えばいいんですが，Componentをどうやって組み込めばいいのかがわからなくて試行錯誤の繰り返しです．まだThrottling機能は使えないんですが，簡単なサンプルができたので皆さんの添削を期待してアップします．サンプルの挙動防災科学研究所に定期的にアクセスして HTML::Selector::XPathとHTML::TreeBuilder::XPathを使って最新震源情報を抽出前回アクセスした時と内容が違っていたら出力という簡単なものです．サンプルスクリプトいつもはこの節でスクリプト全文を載せているのですが，今回は先にトピックスの説明をしてみます． use warnings; no warnings qw(redefine); use FileH
MOZZ 2008/05/21
gungho

perl
リンク
YappoLogs: GunghoっていうWebクロウラーたんの件
GunghoっていうWebクロウラーたんの件なんか男前そうなクロウラーたんを発見したお資料はhttp://www.slideshare.net/lestrrat/gungho-swarmage-pocomdba/を見るべし。ちなみに、これ書くのに使ったGunghoはVersion 0.09001 のCPANの。概要 GunghoはPlaggerっぽいwebクロウラーたんです。なのでGunghoの名前空間以下にあるモジュールとかを個別に使おうとしたら大変です。 Gunghoのアーキテクチャにそった一本道な動作をさせるのがいいはず。設定はConfig::Any使ってるので、色んな形式のを使えます。 Providerにより収集URLを取得し、EngineがHTTPでコンテンツを取得し、Handlerで取得したコンテンツを処理します。 Provider,Engine,Handlerは、そ
MOZZ 2008/05/21
gungho

perl

crawler
リンク
Gungho-0.09008
The London Perl and Raku Workshop takes place on 26th Oct 2024. If your company depends on Perl, please consider sponsoring and/or attending.
MOZZ 2008/05/21
perl

cpan

crawler
リンク
Perlメモ/Gungho/簡単なRSSクローラ - Walrus, Digit.
Gunghoでもっともカスタムメイドの機会が多い部品は、プロバイダとハンドラです。「何を取得したいか」「取得してどうするのか」という用途に密接にかかわる部品だからです。ここではサンプルとして、データベースをストレージとした、RSS（フィード）クローラを作ってみることにします。 Gunghoの概要や情報源についてはPerlメモ/Gunghoを参照してください。このフィードクローラは、次のような動作をします。データベースに、フィード情報を保持するfeedテーブルとエントリ情報、コンテンツを保持するentryテーブルがあります。フィードの取得フィードテーブルから、未取得、または最終取得から1時間経過したフィードのURLを読み出します。読み出したフィードを取得します。取得したフィードから、エントリ情報を抽出します。新しいエントリURLがあれば、entryテーブルに追加します。エントリ
MOZZ 2008/05/21
gungho

perl
リンク
- 2008年5月22日
- 2008年5月21日
- 2008年5月20日