いつものごとくスクレイプの話ですが、requestsを使っていて文字化けに少々ハマりましたので、残しておきます。 結果的にそもそも文字コードの扱いについてちゃんと理解できていなかったことが問題でしたー HTMLのcharset 今回スクレイプしようとしていたWebサイトはmetaタグのcharsetにEUC-JPが設定されていました requestsさんですが、基本的にはmetaタグではなくHTTPレスポンスヘッダのcontent-typeをみてcharsetを判断しているようです。が、content-typeが対象のWebで設定されておらず読めない場合はデフォルトのISO-8859-1となってしまうようです result = requests.get('スクレイプするURL') print(result.encoding) 実行結果 ISO-8859-1 ちょっとググったら以下のやり方で
![Python3 – requestsの文字化け対策 | memorandum-plus](https://cdn-ak-scissors.b.st-hatena.com/image/square/6e247a212b9ba9055f4b4abdd42238cd01860458/height=288;version=1;width=512/https%3A%2F%2Fmemorandum-plus.com%2Fwp-content%2Fplugins%2Fall-in-one-seo-pack%2Fimages%2Fdefault-user-image.png)