タグ

gunghoに関するkamawadaのブックマーク (10)

  • Gungho::Component::Throttle.ja - スロットリング用ベースクラス - metacpan.org

    NAME Gungho::Component::Throttle.ja - スロットリング用ベースクラス SYNOPSIS package Gungho::Component::Throttle::Domain; use base qw(Gungho::Component::Throttle); DESCRIPTION クローラー作成時には必ずリクエスト数を調整するスロットリングが必要になります。 このコンポーネントはスロットリングの親クラスとして機能します。実際の スロットリングはThrottle::SimpleやThrottle::Domainのような子クラスが行います。 Gungho::Component::Throttle::Simpleは単純に時間あたりのリクエスト総数を ベースにスロットリングを行います。どんなリクエストであっても時間あたりの リクエスト総数が規定値を上回った時

  • Gungho::Manual::Tutorial.ja - Gunghoチュートリアル - metacpan.org

    Tools Download (95.61KB) MetaCPAN Explorer Permissions Subscribe to distribution Install Instructions Dependencies Best Class::Accessor::Fast Class::C3::Componentised Class::Data::Inheritable Class::Inspector Config::Any Data::Dumper Event::Notify Exception::Class FindBin Getopt::Long HTTP::Request HTTP::Response HTTP::Status Log::Dispatch POE POE::Component::Client::DNS POE::Component::Client::HT

  • Perlメモ/Gungho/簡単なRSSクローラ - Walrus, Digit.

    Gunghoでもっともカスタムメイドの機会が多い部品は、プロバイダとハンドラです。「何を取得したいか」「取得してどうするのか」という用途に密接にかかわる部品だからです。ここではサンプルとして、データベースをストレージとした、RSS(フィード)クローラを作ってみることにします。 Gunghoの概要や情報源についてはPerlメモ/Gunghoを参照してください。 このフィードクローラは、次のような動作をします。 データベースに、フィード情報を保持するfeedテーブルとエントリ情報、コンテンツを保持するentryテーブルがあります。 フィードの取得 フィードテーブルから、未取得、または最終取得から1時間経過したフィードのURLを読み出します。 読み出したフィードを取得します。 取得したフィードから、エントリ情報を抽出します。新しいエントリURLがあれば、entryテーブルに追加します。 エントリ

  • GunghoX-FollowLinksを実装したよ - D-6 [相変わらず根無し]

    GunghoX-FollowLinksを実装したよ 何個か前のエントリーで書いた、ページ内のリンクを辿って行く機能をGunghoX::FollowLinksで実装したよ。 まだちょっといけてない部分があるので多少の書き直しはあると思うけど、とりあえずうpしたさ。使い方はこんな感じ。このクローラーはあるURL(例:http://www.example.com/)を与えると、そのURLから辿れる、そのURL階層以下のページを全部取ってくるデス。長いからエントリーの後のほうでで説明もつけますよ #!/usr/local/bin/perl # $Id$ # # Copyright (c) 2007 Daisuke Maki <daisuke@endeworks.jp> # All rights reserved. use strict; use warnings; use Gungho; use

  • YappoLogs: GunghoっていうWebクロウラーたんの件

    GunghoっていうWebクロウラーたんの件 なんか男前そうなクロウラーたんを発見したお 資料はhttp://www.slideshare.net/lestrrat/gungho-swarmage-pocomdba/を見るべし。 ちなみに、これ書くのに使ったGunghoはVersion 0.09001 のCPANの。 概要 GunghoはPlaggerっぽいwebクロウラーたんです。なのでGunghoの名前空間以下にあるモジュールとかを個別に使おうとしたら大変です。 Gunghoのアーキテクチャにそった一道な動作をさせるのがいいはず。 設定はConfig::Any使ってるので、色んな形式のを使えます。 Providerにより収集URLを取得し、EngineがHTTPでコンテンツを取得し、Handlerで取得したコンテンツを処理します。 Provider,Engine,Handlerは、そ

    kamawada
    kamawada 2007/11/07
    解説ktkr これ使えばおっぱいダウンロードも高速になるぞー
  • ライブドアブログ|無料で豊富な機能が充実

    以前派遣された会社で、同年代のA子と仲良くなった。 A子から「今度飲みに行きませんか」と誘われたんだけど… 車で帰宅中急激な腹痛でトイレにかけこむもなんと4人も待ってた、この時点で気が遠くなったけど我慢。 私の前が丁度共用にあたり動いた瞬間お腹が臨界点を迎え…ごめん

    ライブドアブログ|無料で豊富な機能が充実
  • D-5 出張版 - Gungho Components

  • Kazuho@Cybozu Labs: Gungho をインライン化してみた

    « Mylingual Slides @ YAPC::Asia 2007 | メイン | Re: PoCo::Client::HTTP が勝手に文字コードを変えてしまう件 » 2007年04月16日 Gungho をインライン化してみた ちょっとクローラーが必要になったのですが、POE の勉強は面倒なので Gungho を使って作ることにしました。開発が始まったばかりっぽいけど、使いやすそうだし期待大ということで。で、コードを読んでいて思ったのは、provider (URL をフィードするモジュール) と handler (ダウンロードしたコンテンツを処理するモジュール) は再利用されない (=各アプリケーション専用の処理になる) 場合も多いんじゃないかということ。だったらいちいちパッケージ定義して設定値渡しとか面倒だよねというか、ぶっちゃけ自分がクロージャで書きたいと思ったので、ラッパー

  • Gungho と Web::Scraper で mashup - file-glob こと k.daibaの日記

    資料 発表で使ったスライドはこれです. 所感 しゃべった後にこんなことを言うのはなんなんですが,cronではなくてGunghoを使ったのかという説明がうまくできてません. ネットワーク上のWebAPIにアクセス 取得した情報に基づきプログラムが内部状態を変更 内部状態に基づき,アクセス先のWebAPIやアクセス頻度を変更 1. に戻る ってことをやってみたかったのでクローラーを使ってみたのでした.ちなみに,牧さんに怒られちゃったけど,現行バージョンのGunghoではバグは直ってます.ハイ 余談 Google PresentationにはPowerPointなんかで言うところの基図形とか矢印とかがありません.んでもってpdfとかodpへの出力ができません.他の形式の資料に再利用するのは難しいです.それから,資料を公開するともれなくチャット画面が着いてきます.これって発表して質疑応答する時に

    Gungho と Web::Scraper で mashup - file-glob こと k.daibaの日記
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

    kamawada
    kamawada 2007/09/28
    今更ブクマ。これは面白そうだ。
  • 1