00:02 | こんにちは、趣味や業務で大手ポータルサイトのサービスで稼働しているいくつかのクローラの開発とメンテナンスを行っているmalaです。さて先日、岡崎市立中央図書館Webサイトをクロールしていた人が逮捕、勾留、実名報道されるという事件がありました... 続きを読む
#Librahack[http://twitter.com/search?q=%23librahack] の議論。多く登場する「スクレイピング」と書こうと思ったけれども、クロールで得たHTMLの後処理がスクレイピングだから、ここでは「クロール」対「DoS」とした。 そもそも、クロールとDoSは行っている側... 続きを読む
[を] Yahoo! Slurp に rel="nofollow" を無視されたYahoo! Slurp に一斉にアクセスされてサーバのロードアベレージが激ヤバ。 とりあえず、CGIスクリプトのファイル名を変更して回避。 robots.txt 最も基本的なのがこれ。たつをくんがこれを知らないはずはない... 続きを読む
このブログでは初めましての長野雅広(kazeburo)です。mixi開発部・運用グループでアプリケーションの運用を担当しています。 12月12日よりmixiのRSSのCrawlerが改善され、外部ブログの反映が今までと比べ格段にはやくなっているのに気付かれた方も多いかと思い... 続きを読む
開発, Ruby, Tips | 昨日、「Redmine 内の Wiki データをエクスポートする方法」を紹介しましたが、以下の点で気に入りませんでした。Redmine 標準のエクスポート機能 ファイルが単一なのが嫌レイアウト・スタイルが通常と異なる画像ファイルなど添付ファイルを... 続きを読む