タグ

unicodeに関するhirocuekiのブックマーク (2)

  • 備忘録: Unicode, UCS, and UTF : 404 Blog Not Found

    2005年12月20日11:45 カテゴリiTechLogos 備忘録: Unicode, UCS, and UTF まだ混乱が収まっていらっしゃらないようなので、備忘録を兼ねてここでまとめておきましょう。 電脳社会の日語 加藤 弘一 quinta essentia - del.icio.us買収, Yonahあってるかな? Character Set (文字集合) vs. Encoding (符号化) まずこの二つが別物だということを抑えましょう。UCSというのは名前からわかる通り、Character Set (文字集合)です(とはいえ、Unicode.orgのGlossaryを見ると、符号化の一手段にも見えなくはない)。この段階では、各文字は「背番号」を持っているに過ぎません。狭義の「Unicode」はこの「背番号」を指します。 これをどう実際のデータにするのかがEncoding (

    備忘録: Unicode, UCS, and UTF : 404 Blog Not Found
  • PythonのUnicodeEncodeErrorを知る - HDEラボ

    Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。 特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。 そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。 なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ

  • 1