タグ

crawlerに関するDdtanaのブックマーク (3)

  • YappoLogs: GunghoっていうWebクロウラーたんの件

    GunghoっていうWebクロウラーたんの件 なんか男前そうなクロウラーたんを発見したお 資料はhttp://www.slideshare.net/lestrrat/gungho-swarmage-pocomdba/を見るべし。 ちなみに、これ書くのに使ったGunghoはVersion 0.09001 のCPANの。 概要 GunghoはPlaggerっぽいwebクロウラーたんです。なのでGunghoの名前空間以下にあるモジュールとかを個別に使おうとしたら大変です。 Gunghoのアーキテクチャにそった一道な動作をさせるのがいいはず。 設定はConfig::Any使ってるので、色んな形式のを使えます。 Providerにより収集URLを取得し、EngineがHTTPでコンテンツを取得し、Handlerで取得したコンテンツを処理します。 Provider,Engine,Handlerは、そ

  • MOONGIFT: » 画像をまとめてダウンロード「Page Scavenger」:オープンソースを毎日紹介

    画像や写真をまとめて載せているサイトは数多い。どれも素晴らしいが、ちまちま一つずつダウンロードするのは面倒だと思う。そこでまとめてダウンロードするソフトウェアが欲しくなる。 専用ダウンローダーがある場合はそれを。ない場合はこれを使ってみよう。 今回紹介するオープンソース・ソフトウェアはPage Scavenger、画像一括ダウンローダーだ。 Page Scavengerは正規表現に対応させることで、サイトを限定することなく利用できるようにしている。提供されている設定も数多いが、海外サイトのみなので、日サイトで行う場合は自作が必要になる。 使い方は簡単で、サイトのURLとダウンロード先を指定するだけで良い。IE/Firefox向けに右クリックからのURL設定ができたり、Cookie情報をブラウザのものを利用してアクセスすることもできる。これにより、会員制サイトでも利用できるだろう。 他にも

    MOONGIFT: » 画像をまとめてダウンロード「Page Scavenger」:オープンソースを毎日紹介
  • http://dev.razil.jp/project/xango/

  • 1