mactkgのブックマーク - はてなブックマーク

Pythonコード帳
とあるウェブサイトをスクレイピングしたら、文字コードがUTF-8じゃなくShift JISだったので文字化けとかして抽出できませんでした。以前のエントリで書いたスクレイピングの方法だと、英数字のみのリンクは抽出できるけど、日本語を含むリンクは抽出できませんでした。・[Python]ウェブサイトから必要なデータだけ取得する方法 | Pythonコード帳解決方法ですが、「Python　文字コード　スクレイピング」で検索したらよさげな記事がありました。・Pythonでスクレイピングしたい – Code is beautiful Python内部ではUnicodeで処理してるので、一旦Unicodeに変換(decode)してから、UTF-8に変換(encode)するという事らしい。参考にして、以下のように書くとウェブページがSJISの場合にスクレイピングできました。 #!/usr/b
mactkg 2011/07/09
python
リンク
1

はてなブックマーク