サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
猫
kanji.hatenablog.jp
【Webスクレイピング Advent Calendar 2017 4日目の記事です。】 Pythonのrequestsモジュールは、 「Requestsは、人が使いやすいように設計されていて、Pythonで書かれている Apache2 Licensed ベースのHTTPライブラリです。」 と公式サイト1文目に記述されているほど、扱いやすいHTTPライブラリです。 そんなrequestsモジュールですが、日本語HTMLを対象に取得する際に文字化けを起こすことがしばしばあります。 その対策や原因について備忘録としてまとめます。 対策まとめ モジュールのバージョンなど レスポンスヘッダに文字エンコード情報がないため起こる文字化け 文字化けの原因 対策 大量のページをダウンロードするときは、cChardet BeautifulSoupと組み合わせて使う まとめ 参考にしたサイト 対策まとめ req
このページを最初にブックマークしてみませんか?
『kanji.hatenablog.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く