【Webスクレイピング Advent Calendar 2017 4日目の記事です。】 Pythonのrequestsモジュールは、 「Requestsは、人が使いやすいように設計されていて、Pythonで書かれている Apache2 Licensed ベースのHTTPライブラリです。」 と公式サイト1文目に記述されているほど、扱いやすいHTTPライブラリです。 そんなrequestsモジュールですが、日本語HTMLを対象に取得する際に文字化けを起こすことがしばしばあります。 その対策や原因について備忘録としてまとめます。 対策まとめ モジュールのバージョンなど レスポンスヘッダに文字エンコード情報がないため起こる文字化け 文字化けの原因 対策 大量のページをダウンロードするときは、cChardet BeautifulSoupと組み合わせて使う まとめ 参考にしたサイト 対策まとめ req