[B! crawler] nakackのブックマーク

nakack id:nakack

crawlerに関するnakackのブックマーク (2)

1日最大20億ページのクローリングを安価に実現！『80legs』 | 100SHIKI
1日最大20億ページのクローリングを安価に実現！『80legs』 September 28th, 2009 Posted in 便利ツール（ウェブ） Write comment サービスの開発上、大量のウェブページのクローリングが必要な場合もある（お行儀良くやりましょうね）。通常、そうしたクローリングには別途マシンを割り当ててがしがし処理をまわすのだが、あまりに膨大な量のクローリングをする必要がある場合、いろいろとコストがかかってしまう。そこで「クローリングならうちに任せて！」と声を上げたのが80legsだ。なんと5万台のマシンを使い、最大20億ページ/日のクローリングが可能だという。しかもデータセンターやクラウドを使うよりぐっと安価ときている。なおかつ、使い方も簡単で、どんなクローリングをしたいかをフォームで申し込むだけらしい。クローリングという実にニッチなサービスではあるが、必
nakack 2009/10/01
cloud

crawler

searchengine

service
リンク
mixi Engineers’ Blog » 新RSS Crawlerの裏側
このブログでは初めましての長野雅広(kazeburo)です。mixi開発部・運用グループでアプリケーションの運用を担当しています。 12月12日よりmixiのRSSのCrawlerが改善され、外部ブログの反映が今までと比べ格段にはやくなっているのに気付かれた方も多いかと思います。この改善されたRSS Crawlerの裏側について書きたいと思います以前のCrawlerについて以前のCrawlerは cronからbrokerと呼ばれるプログラムを起動 brokerはmember DBから全件、idをincrementしながら取得し、外部ブログが設定されていればcrawlerを起動(fork) crawlerはRSSを取得しDBに格納して終了このような設計になっていました。この設計の問題として、member DBを全件走査するという無駄な動作と、一件一件crawlerを起動するためオーバ
nakack 2007/12/25
architecture

crawler

perl

mixi

rss

server
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx