タグ

crawlerに関するnakackのブックマーク (2)

  • 1日最大20億ページのクローリングを安価に実現!『80legs』 | 100SHIKI

    1日最大20億ページのクローリングを安価に実現!『80legs』 September 28th, 2009 Posted in 便利ツール(ウェブ) Write comment サービスの開発上、大量のウェブページのクローリングが必要な場合もある(お行儀良くやりましょうね)。 通常、そうしたクローリングには別途マシンを割り当ててがしがし処理をまわすのだが、あまりに膨大な量のクローリングをする必要がある場合、いろいろとコストがかかってしまう。 そこで「クローリングならうちに任せて!」と声を上げたのが80legsだ。 なんと5万台のマシンを使い、最大20億ページ/日のクローリングが可能だという。しかもデータセンターやクラウドを使うよりぐっと安価ときている。なおかつ、使い方も簡単で、どんなクローリングをしたいかをフォームで申し込むだけらしい。 クローリングという実にニッチなサービスではあるが、必

    1日最大20億ページのクローリングを安価に実現!『80legs』 | 100SHIKI
  • mixi Engineers’ Blog » 新RSS Crawlerの裏側

    このブログでは初めましての長野雅広(kazeburo)です。mixi開発部・運用グループでアプリケーションの運用を担当しています。 12月12日よりmixiのRSSのCrawlerが改善され、外部ブログの反映が今までと比べ格段にはやくなっているのに気付かれた方も多いかと思います。この改善されたRSS Crawlerの裏側について書きたいと思います 以前のCrawlerについて 以前のCrawlerは cronからbrokerと呼ばれるプログラムを起動 brokerはmember DBから全件、idをincrementしながら取得し、外部ブログが設定されていればcrawlerを起動(fork) crawlerはRSSを取得しDBに格納して終了 このような設計になっていました。 この設計の問題として、member DBを全件走査するという無駄な動作と、一件一件crawlerを起動するためオーバ

    mixi Engineers’ Blog » 新RSS Crawlerの裏側
  • 1