はじめに 実施環境について Torブラウザ付属のTorについて スクレイピングの実施 Webクライアントが「Chrome」の場合 Webクライアントが「requests」の場合 Webクライアントが「requests_tor」の場合 はじめに .onionドメインのWebサイトをスクレイピングしたいと思い調べたところ、ブラウザなどのWebクライアントからの通信がTorのSOCKSプロキシを経由するように構成すればスクレイピングできるとのことで、いくつかのWebクライアントを利用して実施してみます。 .onionドメインでない通常のWebサイト(*.comとか、*.jpなど)について、送信元IPアドレスを隠蔽してスクレイピングしたい場合もこの方法で可能です。 ※ちなみに、WebサイトによってはTor経由のアクセスを禁止してたり、Tor経由だとreCAPTCHAが動作するサイトがあるので、そう
こんにちは、らくからちゃです 2年連続ステイホームのゴールデンウィークになりそうです。 もはやゴールデンウィークって普段何してたのか忘れかけてきたので、過去の履歴を漁ってみたら、一昨年は伊豆半島の東側をぐるぐる回りながら下田までいってたみたいです。 そういやコロナ前のゴールデンウィークって何してたんだっけ?と思ってGoogleフォトのフォルダ漁ってみたら、伊豆半島をぐるぐるしてたらしい。 また落ち着いたら行きたいなあ。 pic.twitter.com/N0fNxIZ5Uq — らくからちゃ@育休中専業主夫 (@lacucaracha) 2021年5月3日 こんなどこにも行けない日には、家でデータ分析をするに限りますね!!(鼻息) 統計局が、e-statを使って遊ぶ方法も教えてくれるそうなので、ご興味がある方は是非! gacco.org 統計として公開されているデータを眺めてみるのも面白いっ
# -*- coding:utf-8 -*- from bs4 import BeautifulSoup def get_soup_uulib2(url): import urllib2 opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] page = opener.open(url) soup = BeautifulSoup(page,"lxml") return soup def get_soup_urequests(url): import requests s = requests.Session() r = s.get(url) soup = BeautifulSoup(r.text,"lxml") print soup def get_soup_uselenium
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く