タグ

ブックマーク / blog.yappo.jp (3)

  • YappoLogs: GunghoっていうWebクロウラーたんの件

    GunghoっていうWebクロウラーたんの件 なんか男前そうなクロウラーたんを発見したお 資料はhttp://www.slideshare.net/lestrrat/gungho-swarmage-pocomdba/を見るべし。 ちなみに、これ書くのに使ったGunghoはVersion 0.09001 のCPANの。 概要 GunghoはPlaggerっぽいwebクロウラーたんです。なのでGunghoの名前空間以下にあるモジュールとかを個別に使おうとしたら大変です。 Gunghoのアーキテクチャにそった一道な動作をさせるのがいいはず。 設定はConfig::Any使ってるので、色んな形式のを使えます。 Providerにより収集URLを取得し、EngineがHTTPでコンテンツを取得し、Handlerで取得したコンテンツを処理します。 Provider,Engine,Handlerは、そ

  • YappoLogs: Xangoというクロウラーフレームワークを使ってみる

    Xangoというクロウラーフレームワークを使ってみる Xango XangoPerlで書かれた汎用クローラーフレームワークです。 イベント型フレームワークPOEを使用することにより高速なクローリングが可能です。 実装にもよりますが、単一プロセス内でインデックシングや文字コードの変換等の処理を 同時に行うアプリケーションでも1秒に5~8 URL、1時間で 18000 ~ 22000 URLの処理が行えます。 ドキュメントはperldocのみっぽいので、日語の情報を残す意味で使い方のメモをば。 相当端折って書いてます。 Xangoを使ったクロウラーを書くには、制御用のにPOEセッションを作る必要があります。 Xangoを制御するためのモジュールを適当な名前で作っておくのがスマートかと思います。 とりあえずセッション作成を行う処理を書きます sub spawn { my $class = s

  • YappoLogs: Senna 1.0.0がリリースされたよ!

    Senna 1.0.0がリリースされたよ! 遂にSennaの1.0.0が出ましたよ! プレスリリースによると ●メジャーバージョン(1.0.0)リリースについて Senna1.0.0では転置インデックスの格納形式を改善し、更新/検索速度を損ねる ことなくサイズを最大で従来比70%程度まで圧縮することに成功しました。この ため、従来よりも大規模な文書を1台のサーバで管理することが可能となりました。 という事なので早速wktkしながらinstallしました。 色々考えるのがめんどくさかったので、動いてる環境にsennaとmysqlを順番にmake installしてmysql restartです。 早速indexを作り直してみると。。。。 -rw-rw---- 1 mysql mysql 1.0K 21:05 SEARCH_DATA.MYI -rw-rw---- 1 mysql mysql 2

  • 1