サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ドラクエ3
qiita.com/kobayashi-masayuki
普段、クローラー開発をメインに仕事をしている。 業務上、データを収集するために様々なサイトにアクセスする機会があり、日々アクセスブロックと格闘している。 今回は自分の備忘録も兼ねて、スクレイピングでアクセスブロックに合わないための技術や対処法をまとめておく。 扱うスクレイピング技術はRubyのopen-uri、curlコマンド、selenium。 改めて言うまでもないが、クロール先サイトの規約や関連法律の遵守はしよう。 アクセスブロックされたときにチェックする項目 アクセスブロックには様々な種類があり、適切な手段をもって回避する IP 1:アクセス頻度 頻繁にサイト側にリスエストを送信すると、ロボット判定される可能性がある。 解決策:sleep時間を増やす。クロール回数*sleep=所要時間<許容所要時間に収まる範囲で、sleepは長く取る。 2:同じペースでリスエストを送信すると、ロボッ
このページを最初にブックマークしてみませんか?
『qiita.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く