ソース 以下のようになると思います. スクレイピングしたいページのURLと出力ファイル名を指定すると,ページのタイトルなどがJSON形式で帰ってくる仕組みです. 関数scrapingが本体です. import sys import json import requests from bs4 import BeautifulSoup import codecs def scraping(url, output_name): # get a HTML response response = requests.get(url) html = response.text.encode(response.encoding) # prevent encoding errors # parse the response soup = BeautifulSoup(html, "lxml") # extra
![Pythonでかんたんスクレイピング (JavaScript・Proxy・Cookie対応版)](https://cdn-ak-scissors.b.st-hatena.com/image/square/98ffa771e3ddc93e91c27f13db4c66117e0f0890/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-7940cd1c8db80a7ec40711d90f43539e.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9UHl0aG9uJUUzJTgxJUE3JUUzJTgxJThCJUUzJTgyJTkzJUUzJTgxJTlGJUUzJTgyJTkzJUUzJTgyJUI5JUUzJTgyJUFGJUUzJTgzJUFDJUUzJTgyJUE0JUUzJTgzJTk0JUUzJTgzJUIzJUUzJTgyJUIwJTIwJUVGJUJDJTg4SmF2YVNjcmlwdCVFMyU4MyVCQlByb3h5JUUzJTgzJUJCQ29va2llJUU1JUFGJUJFJUU1JUJGJTlDJUU3JTg5JTg4JUVGJUJDJTg5JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnR4dC1jb2xvcj0lMjMzQTNDM0MmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmcz0yMzliODViNmMzNGRmNTNhMDlkMzAzMjg5NjI0YzM0NQ%26mark-x%3D120%26mark-y%3D96%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9OTcyJnR4dD0lNDBfYWtpc2F0byZ0eHQtY29sb3I9JTIzM0EzQzNDJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9ZTE5MWNlMGE3OTRjMzJjMjAyYjJkY2NiNTQ4ZjFlYTc%26blend-x%3D120%26blend-y%3D500%26blend-mode%3Dnormal%26s%3D346e4d91dde405f2cedec1e0da5e4f97)