タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

Pythonとunicodeとtutorialに関するsuzukiMYのブックマーク (2)

  • (Windows) Python3でのUnicodeEncodeErrorの原因と回避方法 - Qiita

    背景 strがUnicodeになってしまったので、 従来のShift-JISに代表されるようなCP932はどうなっているのか? Windowsで標準出力する際に、ascii変換エラーになってしまう場合。 あれは一体なんなのか、それを整理した。 環境 Windows Python3 (Anaconda3) WindowsPythonとエンコーディング Python文字列のエンコーティング Python3では、文字列に関する型は2種類ある。 str型(Unicode専用) byte型(任意のエンコーディング) strは、UTF-8専用。それ以外のエンコーディング文字列は格納できない。 一方、byteは任意の円コーティング文字列を格納可能。もちろんUTF-8も可能。 strからbyteに変換するには encode()、逆は、decode() で変換可能。 どっちがどっちか分からなくなったら、d

    (Windows) Python3でのUnicodeEncodeErrorの原因と回避方法 - Qiita
  • Pythonで unicodedata.normalize を使って全角半角を正規化する方法

    (この記事は 2008年03月14日に別のブログに投稿した記事を移動・編集したものです。) インターネット上の日語を扱っていると、全角半角が統一されていない事による表記揺れをなんとかしたい場面に出くわします。半角で書かれた iPod も、全角で書かれたiPodも同じものとして扱いたいときや、あるいは単に見た目がきれいになるように、英数字は半角に、カタカナは全角にそろえたい、という場合です。 Python では setomitsさんによる zenhan.py を使うと、文字種ごとに全角半角を選択して変換することができ、除外文字も設定できるので便利です。ただ、そこまで柔軟でなくても良く、単に表記揺れがなくなれば良い、という場合も多いかと思います。その場合はPythonの標準ライブラリに含まれる unicodedata モジュールの normalize 関数を使うと便利です。 >>> impo

  • 1