[B! crawler] HISAMATSUのブックマーク

HISAMATSU id:HISAMATSU

crawlerに関するHISAMATSUのブックマーク (4)

mixi Engineers’ Blog » 新RSS Crawlerの裏側
このブログでは初めましての長野雅広(kazeburo)です。mixi開発部・運用グループでアプリケーションの運用を担当しています。 12月12日よりmixiのRSSのCrawlerが改善され、外部ブログの反映が今までと比べ格段にはやくなっているのに気付かれた方も多いかと思います。この改善されたRSS Crawlerの裏側について書きたいと思います以前のCrawlerについて以前のCrawlerは cronからbrokerと呼ばれるプログラムを起動 brokerはmember DBから全件、idをincrementしながら取得し、外部ブログが設定されていればcrawlerを起動(fork) crawlerはRSSを取得しDBに格納して終了このような設計になっていました。この設計の問題として、member DBを全件走査するという無駄な動作と、一件一件crawlerを起動するためオーバ
HISAMATSU 2007/12/22
mixi

crawler

scalability

rss
リンク
Crawler Guide of Hyper Estraier Version 1 (Japanese)
目次はじめにチュートリアルクローラコマンド Web検索エンジンの実現はじめにこのガイドでは、Hyper EstraierのWebクローラの詳細な使い方を説明します。ユーザガイドとP2Pガイドをまだお読みでない場合は先にそちらに目を通しておいてください。 estcmdだとローカルのファイルシステム上にある文書（ファイル）を対象としたインデクシングしかできません。NFSやSMB等を用いてファイルシステムをリモートマウントすれば別のマシンにある文書をインデクシングすることもできますが、不特定対数のWebサイトの文書を扱おうとするとそうもいきません。wgetなどのクローラで文書を集めて来てローカルに保存してからインデクシングすることも考えられますが、ディスク容量の問題や更新頻度の問題などがあります。 Web上のリンクを辿って文書を収集することをWebクローリングと言い、そのプログラムをW
HISAMATSU 2007/03/14
crawler
リンク
YappoLogs: Xangoというクロウラーフレームワークを使ってみる
Xangoというクロウラーフレームワークを使ってみる Xango XangoはPerlで書かれた汎用クローラーフレームワークです。イベント型フレームワークPOEを使用することにより高速なクローリングが可能です。実装にもよりますが、単一プロセス内でインデックシングや文字コードの変換等の処理を同時に行うアプリケーションでも１秒に５～８ URL、１時間で 18000 ~ 22000 URLの処理が行えます。ドキュメントはperldocのみっぽいので、日本語の情報を残す意味で使い方のメモをば。相当端折って書いてます。 Xangoを使ったクロウラーを書くには、制御用のにPOEセッションを作る必要があります。 Xangoを制御するためのモジュールを適当な名前で作っておくのがスマートかと思います。とりあえずセッション作成を行う処理を書きます sub spawn { my $class = s
HISAMATSU 2007/03/07
crawler

xango
リンク
http://dev.razil.jp/project/xango/
HISAMATSU 2006/12/29
卒論のプログラムに適当かも。

crawler

research

あとで
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx