タグ

ブックマーク / librahack.jp (4)

  • 負荷について考えたこと | Librahack : 容疑者から見た岡崎図書館事件

    スクレイピングスクリプトを作る際、それぞれのコンピュータにかかる負荷について、次のようなことを考えました。 リクエスト数:10カテゴリ×約200ページ=約2,000ページ 自分側サーバの負荷限定:30分間ぐらいで終わるように。約2,000リクエスト / 1,800秒 = 約1リクエスト/秒 相手側サーバの負荷限定:シリアルアクセス(リクエストは同時に複数送信しない、リクエストの応答が返ってきてから次のリクエストを送信する) 単位時間あたりリクエスト数を限定:リクエストとリクエストとの間に適当な時間間隔(ウエイト)を作る また、アンカーリンクのURLからTosCodeでのデータベース検索が予想できましたので、データベースの負荷は限定的であろうと思っていました。 http://www.library.okazaki.aichi.jp/tosho/Asp/Syousai_g.asp?TosCod

    kunimiya
    kunimiya 2010/06/21
    "自分側サーバの負荷限定:30分間ぐらいで終わるように。(中略) 約1リクエスト/秒"
  • どんなプログラムを作ろうとしていたか | Librahack : 容疑者から見た岡崎図書館事件

    レンタルサーバでデータベースを毎日自動更新。 プライベートのWebアプリケーションようなイメージ。 岡崎図書館事件の真実を検証 自分専用新着図書サイト 自分専用新着図書サイトの完成後のイメージはこんな感じでした。 レンタルサーバを借りて、PHPスクリプトをcronからキックし、データベースを毎日自動更新。 IPアドレスで自分のIPのみを許可、プライベートのWebアプリケーションようなイメージ。 プログラム概略 Libraの新着図書ページを読み込んでISBNや予約数などをスクレイピングする 取得したISBNや他データに新規登録日付を付加してデータベースへ入れる PHPスクリプトをcronで毎日定時に実行してデータベースを自動で更新する AmazonのWebAPIや他APIとマッシュアップして、新着図書についてレビューを表示する Libraの予約数を表示、予約が多ければAmazonで購入するた

  • なぜプログラムを作ったか | Librahack : 容疑者から見た岡崎図書館事件

    プログラムを作ろうと思った動機は、Libraの新着図書ページが使いにくかったので、自分専用サイトを作りたかったこと。 岡崎図書館事件の真実を検証 目的は自分専用サイトを作ること プログラムを作ろうと思った動機はこんな感じです。 岡崎市立中央図書館(通称Libra)のヘビーユーザーだった Libraの新着図書ページが使いにくかった(特に、最近入ったを探すことができなかった) そこで、自分専用サイトを作ることにした 最近入ったを探すことができなかった理由はこんな感じ。 新着図書が多すぎる(各カテゴリに200冊ぐらい) 新着図書の対象期間が長すぎる(3ヶ月とか) あいうえお順に並んでいる(新着順にソートとかがない) そもそも新着(入荷)した日付がないので、いつ入ったか不明 ちなみに、現在はJavaScriptへ 2010年6月21日 現在、新着図書ページにある書名にアンカーリンク(詳細ページ

  • Librahack : 容疑者から見た岡崎図書館事件

    出来事の詳細 3/13 新着図書データベースを作るためクローリング&スクレイピングプログラムを作成した ちょうどその頃、市場調査を行うためにECサイトのスクレイピングプログラムを作っていた。そのついでに、前々から構想していたLibra新着図書Webサービスを作ろうと思った。市場調査プログラムの一部をカスタマイズして、新着図書データベース作成プログラムを作った。この時、市場調査プログラムと新着図書データベース作成プログラムは同じプログラム内にあり、パラメータでアクションを指定して振り分けていた。 Webサービスを作ろうと思った動機は「なぜプログラムを作ったか」の通り。 Webサービスの概要は「どんなプログラムを作ろうとしていたか」の通り。 普段読むを入手する流れ:1. Amazonの各カテゴリの売れ筋をチェックしてレビューを確認し読むかどうか決める(または、書評ブログや新聞などのメディアで

  • 1