[B! crawler] kamawadaのブックマーク

https://labs.cybozu.co.jp/blog/kazuho/archives/2008/04/q4m_crawler.php

kamawada 2008/04/07

リンク

mixi Engineers’ Blog » 新RSS Crawlerの裏側

このブログでは初めましての長野雅広(kazeburo)です。mixi開発部・運用グループでアプリケーションの運用を担当しています。 12月12日よりmixiのRSSのCrawlerが改善され、外部ブログの反映が今までと比べ格段にはやくなっているのに気付かれた方も多いかと思います。この改善されたRSS Crawlerの裏側について書きたいと思います以前のCrawlerについて以前のCrawlerは cronからbrokerと呼ばれるプログラムを起動 brokerはmember DBから全件、idをincrementしながら取得し、外部ブログが設定されていればcrawlerを起動(fork) crawlerはRSSを取得しDBに格納して終了このような設計になっていました。この設計の問題として、member DBを全件走査するという無駄な動作と、一件一件crawlerを起動するためオーバ

kamawada 2007/12/22

ktkr

リンク

https://labs.cybozu.co.jp/blog/kazuho/archives/2007/04/gungho.php

kamawada 2007/10/15

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

kamawada 2007/09/28

今更ブクマ。これは面白そうだ。

リンク

YappoLogs: Xangoというクロウラーフレームワークを使ってみる

Xangoというクロウラーフレームワークを使ってみる Xango XangoはPerlで書かれた汎用クローラーフレームワークです。イベント型フレームワークPOEを使用することにより高速なクローリングが可能です。実装にもよりますが、単一プロセス内でインデックシングや文字コードの変換等の処理を同時に行うアプリケーションでも１秒に５～８ URL、１時間で 18000 ~ 22000 URLの処理が行えます。ドキュメントはperldocのみっぽいので、日本語の情報を残す意味で使い方のメモをば。相当端折って書いてます。 Xangoを使ったクロウラーを書くには、制御用のにPOEセッションを作る必要があります。 Xangoを制御するためのモジュールを適当な名前で作っておくのがスマートかと思います。とりあえずセッション作成を行う処理を書きます sub spawn { my $class = s