タグ

encodeとpythonに関するitomo8suのブックマーク (3)

  • 日本語文字列コード問題まとめ

    【1】   文字列コード問題との戦い Pythonに限った話ではないのですが、 日語を取り扱うコードを書いていると やっかいなエンコーディングトラブルに遭う事は少なくないでしょう。 エンコーディングトラブルとは コンパイラ・インタプリタがソースコードを解釈できない。 画面表示が化ける。 意図した入力ができない。 エンコード・デコード時にエラーがでる。 正しいファイル名のつもりなのにファイルが見つからない。 出力させたファイルの中身が読めない。 などといった現象を基としていろんな問題を引き起こします。 問題のすべては「コード変換」に発生します。 実際の文字列が何のエンコーディングで、 渡す先が何のエンコーディングを期待しているか? それらを確認して合致させるように変換をするということが基です。 【2】   「Python語版が必要」というのは誤解 P

  • pythonのエンコーディング設定(Winodows)

    1   文字コード Pythonでは文字コードに関わる部分は以下の3つである。 入出力は以下の3つの優先順にエンコーディングを決定する。 内部処理コード ソースコード・エンコーディング 入出力データのエンコーディング 処理の際に指定したエンコーディング localeのエンコーディング デフォルトエンコーディング 3   ソースコード・エンコーディング Python 2.3からスクリプトファイルのエンコーディングを指定可能。 指定方法は、ファイルの1行目もしくは2行目に以下のどちらかで指定する。 # coding: エンコード名 もしくは、 # coding=エンコード名 また、前後に余計な文字を指定することも可能。 エンコード名は、ファイルを保存する際に指定したエンコードを指定する。 ユニコードの文字列リテラルは、ファイル内に書かれている以上 あるエンコードで書かれているはずだが、 上記で

  • Python でUTF-8, shift_jis, euc_jpなど日本語を使う方法

    [Home] [Setting up Mac OS X] [Python]: [ファイルを読む] 日語を使う Pythonで日語を使う Python 2.4以降では、標準で日語を扱うことができます。 PythonのソースコードをUTF-8で書くには 日語を扱うPythonのスクリプトの中では、UTF-8の文字コードを使うのが 楽です。 Mac OS Xのターミナルで日語を扱う場合は、 ここの「4. Terminalの設定を変える」の 指示に従ってください。 以下、ソースコードの簡単な例を示します。 #!/usr/bin/env python # -*- coding: utf-8 -*- import re jtext = u'子が隠れんぼをしています' print 'jtext has', len(jtext), 'Japanese characters.' if re.se

  • 1