タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

文字コードに関するzirou_tanakaのブックマーク (1)

  • UnicodeDecodeErrorが発生する文字をignoreオプションで無視する - Pyro Memo

    Pythonで文字コードを変更する際に変換対象の文字列に変換不能な文字が含まれているとUnicodeDecodeErrorが発生して困ることが多かった。 しかし、unicode関数やencode関数のignoreオプションを使うと、それらの変換不能な文字列を無視して変換してくれる。こんな便利なものがあったとは。 BeatifulSoupで不正な文字列を含むXMLを読み込むと、読み込んだ時に文字コードをご認識してしまう問題が発生していたが、ignoreオプション付きで文字コードを再変換したらうまく認識してくれた。 # file_dataは壊れたXMLデータ(UTF-8) soup = BeautifulSoup(file_data) print soup.originalEncoding # 文字コードが誤認識される soup = BeautifulSoup(unicode(file_da

  • 1