ソース 以下のようになると思います. スクレイピングしたいページのURLと出力ファイル名を指定すると,ページのタイトルなどがJSON形式で帰ってくる仕組みです. 関数scrapingが本体です. import sys import json import requests from bs4 import BeautifulSoup import codecs def scraping(url, output_name): # get a HTML response response = requests.get(url) html = response.text.encode(response.encoding) # prevent encoding errors # parse the response soup = BeautifulSoup(html, "lxml") # extra
![Pythonでかんたんスクレイピング (JavaScript・Proxy・Cookie対応版)](https://cdn-ak-scissors.b.st-hatena.com/image/square/e782a18bcbe83c169d336346a15f7c6d1e51c932/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-f625e957b80c4bd8dd47b724be996090.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9UHl0aG9uJUUzJTgxJUE3JUUzJTgxJThCJUUzJTgyJTkzJUUzJTgxJTlGJUUzJTgyJTkzJUUzJTgyJUI5JUUzJTgyJUFGJUUzJTgzJUFDJUUzJTgyJUE0JUUzJTgzJTk0JUUzJTgzJUIzJUUzJTgyJUIwJTIwJUVGJUJDJTg4SmF2YVNjcmlwdCVFMyU4MyVCQlByb3h5JUUzJTgzJUJCQ29va2llJUU1JUFGJUJFJUU1JUJGJTlDJUU3JTg5JTg4JUVGJUJDJTg5JnR4dC1jb2xvcj0lMjMzQTNDM0MmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWNsaXA9ZWxsaXBzaXMmdHh0LWFsaWduPWxlZnQlMkNtaWRkbGUmcz0xMzZmMGExNTUxZTJhMjFlZDczZTJkOGVkY2RiYjdjMw%26mark-x%3D142%26mark-y%3D151%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwX2FraXNhdG8mdHh0LWNvbG9yPSUyMzNBM0MzQyZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPWMxZTYyMDMzYzI2ZDg4OTg2MDg4NzNjN2RmNmEzMGVj%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D35a4d570a87f8d1270f004d219f75e79)