タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

crawlerに関するteahutのブックマーク (3)

  • mixi Engineers’ Blog » 新RSS Crawlerの裏側

    このブログでは初めましての長野雅広(kazeburo)です。mixi開発部・運用グループでアプリケーションの運用を担当しています。 12月12日よりmixiのRSSのCrawlerが改善され、外部ブログの反映が今までと比べ格段にはやくなっているのに気付かれた方も多いかと思います。この改善されたRSS Crawlerの裏側について書きたいと思います 以前のCrawlerについて 以前のCrawlerは cronからbrokerと呼ばれるプログラムを起動 brokerはmember DBから全件、idをincrementしながら取得し、外部ブログが設定されていればcrawlerを起動(fork) crawlerはRSSを取得しDBに格納して終了 このような設計になっていました。 この設計の問題として、member DBを全件走査するという無駄な動作と、一件一件crawlerを起動するためオーバ

    mixi Engineers’ Blog » 新RSS Crawlerの裏側
    teahut
    teahut 2007/12/22
    >Scriptサーバにはmanagerとbrokerがあり、Crawlerサーバではcrawlerが動きます... managerはbrokerを監視し一定数を起動... (brokerは)urlとmember_idをHTTP::Asyncでcrawlerに渡す... crawlerはmod_perlのHandlerとして動作
  • YappoLogs: GunghoっていうWebクロウラーたんの件

    GunghoっていうWebクロウラーたんの件 なんか男前そうなクロウラーたんを発見したお 資料はhttp://www.slideshare.net/lestrrat/gungho-swarmage-pocomdba/を見るべし。 ちなみに、これ書くのに使ったGunghoはVersion 0.09001 のCPANの。 概要 GunghoはPlaggerっぽいwebクロウラーたんです。なのでGunghoの名前空間以下にあるモジュールとかを個別に使おうとしたら大変です。 Gunghoのアーキテクチャにそった一道な動作をさせるのがいいはず。 設定はConfig::Any使ってるので、色んな形式のを使えます。 Providerにより収集URLを取得し、EngineがHTTPでコンテンツを取得し、Handlerで取得したコンテンツを処理します。 Provider,Engine,Handlerは、そ

    teahut
    teahut 2007/11/07
    >GunghoはPlaggerっぽいwebクロウラー... Providerにより収集URLを取得し、EngineがHTTPでコンテンツを取得し、Handlerで取得したコンテンツを処理... EngineにはPOE,brad,IO::Asyncが選べます。どれも非同期なやつ
  • J・ウェールズ氏、オープンソースのウェブクローラ「Grub」のテスト版を発表:ニュース - CNET Japan

    WikipediaとWikiaの生みの親であるJimmy Wales氏は米国時間7月27日午前、オレゴン州ポートランドで開催されたO'Reilly Open Sourceカンファレンスにおいてオープンソースのウェブクローリングサイト「Grub」のリリースを発表した。 Grubは、オープンソースプロジェクトWikiaがLookSmartから取得した技術で、ユーザーPCの空いた処理能力を利用する。オープンなプロトコルと、コミュニティーに追加されたWiki関連の機能を利用して運用される。すでに既にダウンロードとテストが可能だ。 Wales氏は2006年、われわれが知っているインターネット検索は機能していないと発言している。Grubは、オープンソース技術を集めてウェブ上の無償コンテンツを整理するという、Wales氏の試みの1つ。

    J・ウェールズ氏、オープンソースのウェブクローラ「Grub」のテスト版を発表:ニュース - CNET Japan
    teahut
    teahut 2007/07/31
    >オープンソースのウェブクローリングサイト... ユーザーPCの空いた処理能力を利用
  • 1