[B! crawler] teahutのブックマーク

teahut id:teahut

crawlerに関するteahutのブックマーク (3)

mixi Engineers’ Blog » 新RSS Crawlerの裏側
このブログでは初めましての長野雅広(kazeburo)です。mixi開発部・運用グループでアプリケーションの運用を担当しています。 12月12日よりmixiのRSSのCrawlerが改善され、外部ブログの反映が今までと比べ格段にはやくなっているのに気付かれた方も多いかと思います。この改善されたRSS Crawlerの裏側について書きたいと思います以前のCrawlerについて以前のCrawlerは cronからbrokerと呼ばれるプログラムを起動 brokerはmember DBから全件、idをincrementしながら取得し、外部ブログが設定されていればcrawlerを起動(fork) crawlerはRSSを取得しDBに格納して終了このような設計になっていました。この設計の問題として、member DBを全件走査するという無駄な動作と、一件一件crawlerを起動するためオーバ
teahut 2007/12/22
>Scriptサーバにはmanagerとbrokerがあり、Crawlerサーバではcrawlerが動きます... managerはbrokerを監視し一定数を起動... (brokerは)urlとmember_idをHTTP::Asyncでcrawlerに渡す... crawlerはmod_perlのHandlerとして動作

crawler
リンク
YappoLogs: GunghoっていうWebクロウラーたんの件
GunghoっていうWebクロウラーたんの件なんか男前そうなクロウラーたんを発見したお資料はhttp://www.slideshare.net/lestrrat/gungho-swarmage-pocomdba/を見るべし。ちなみに、これ書くのに使ったGunghoはVersion 0.09001 のCPANの。概要 GunghoはPlaggerっぽいwebクロウラーたんです。なのでGunghoの名前空間以下にあるモジュールとかを個別に使おうとしたら大変です。 Gunghoのアーキテクチャにそった一本道な動作をさせるのがいいはず。設定はConfig::Any使ってるので、色んな形式のを使えます。 Providerにより収集URLを取得し、EngineがHTTPでコンテンツを取得し、Handlerで取得したコンテンツを処理します。 Provider,Engine,Handlerは、そ
teahut 2007/11/07
>GunghoはPlaggerっぽいwebクロウラー... Providerにより収集URLを取得し、EngineがHTTPでコンテンツを取得し、Handlerで取得したコンテンツを処理... EngineにはPOE,brad,IO::Asyncが選べます。どれも非同期なやつ

perl

crawler
リンク
J・ウェールズ氏、オープンソースのウェブクローラ「Grub」のテスト版を発表:ニュース - CNET Japan
WikipediaとWikiaの生みの親であるJimmy Wales氏は米国時間7月27日午前、オレゴン州ポートランドで開催されたO'Reilly Open Sourceカンファレンスにおいてオープンソースのウェブクローリングサイト「Grub」のリリースを発表した。 Grubは、オープンソースプロジェクトWikiaがLookSmartから取得した技術で、ユーザーPCの空いた処理能力を利用する。オープンなプロトコルと、コミュニティーに追加されたWiki関連の機能を利用して運用される。すでに既にダウンロードとテストが可能だ。 Wales氏は2006年、われわれが知っているインターネット検索は機能していないと発言している。Grubは、オープンソース技術を集めてウェブ上の無償コンテンツを整理するという、Wales氏の試みの1つ。
teahut 2007/07/31
>オープンソースのウェブクローリングサイト... ユーザーPCの空いた処理能力を利用

search

crawler
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx