タグ

encodingに関するmumumu-tanのブックマーク (4)

  • PythonのUnicodeEncodeErrorを知る - HDEラボ

    Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。 特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。 そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。 なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ

  • チケット #8702: CP932系のマッピング - skf - simple kanji filter - OSDN

    マッピングを調べてみました。 なお、以下で比較しています。 http://nkf.sourceforge.jp/ucm/ CP932 -> Unicode において、以下のマッピング間違い # --ic=cp932 --oc=utf-8 --disable-space-convert 0x879B: U+2229 is expected, but U+222A (INTERSECTION/E288A9) 0x879C: U+222A is expected, but U+2229 (UNION/E288AA) ここで --disable-space-convert が必要なことに疑問は呈 しておきます。 何らかの思想があってのことなのでしょうので、強くは言い ませんが。 Unicode -> CP932 について、 # --ic=utf-8 --oc=cp932 --kana-jis8 -

    チケット #8702: CP932系のマッピング - skf - simple kanji filter - OSDN
  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • ワイド文字 - Wikipedia

    ワイド文字(ワイドもじ、英: wide character)とは、主にC言語およびC++における文法要素で、1文字あたりのバイト数を通常より多くしたデータ型である。 C言語やC++の基実行文字集合は通常、ASCIIのサブセットの文字種からなる。ただし実際の文字コードが何であるかは規定されていない。 漢字のような拡張実行文字集合は、通常マルチバイト文字として扱われるが、1文字を構成するバイト数が可変長であり、来1つの文字でありながら複数の文字の組(あるいは文字列)として扱わなければならないなどの不便がある。そうした問題を解消するために、1文字を1つの整数値で扱えるようにすることを目指したのがワイド文字である。 C言語では1995年の ISO/IEC 9899/AMD1:1995 より、wchar_t 型や <wchar.h>、<wctype.h> などのヘッダーファイルが追加になった。ワ

    mumumu-tan
    mumumu-tan 2009/11/28
    1文字を1つの整数値で扱えるようにすることを目指したのがワイド文字である。マルチバイト文字を複数の文字の組として表す必要がない。wchar_t 型。内部表現は実装によって異なるため、移植の際問題になる
  • 1