とあるウェブサイトをスクレイピングしたら、文字コードがUTF-8じゃなくShift JISだったので文字化けとかして抽出できませんでした。 以前のエントリで書いたスクレイピングの方法だと、英数字のみのリンクは抽出できるけど、日本語を含むリンクは抽出できませんでした。 ・[Python]ウェブサイトから必要なデータだけ取得する方法 | Pythonコード帳 解決方法ですが、「Python 文字コード スクレイピング」で検索したらよさげな記事がありました。 ・Pythonでスクレイピングしたい – Code is beautiful Python内部ではUnicodeで処理してるので、一旦Unicodeに変換(decode)してから、UTF-8に変換(encode)するという事らしい。 参考にして、以下のように書くとウェブページがSJISの場合にスクレイピングできました。 #!/usr/b

