タグ

Unicodeに関するnagwikiのブックマーク (1)

  • 職業としてのプログラミング Unicodeの落し穴 - 文字コードと文字列処理

    Unicodeといえば、文字コードの一種。文字コードをあまり意識しない方でもほとんどの方は御存じでしょう。しかし、Unicodeというか文字コードに関して、いくつかありがちな誤解があり、それが原因でバグにはまることもあります。ということで、今回はUnicodeと文字コードの話です。 ■文字コードと符号化方式 文字コードといった時によく、混同されるのが文字集合(character set)と符号化方式(encoding type)。文字集合はその名のとおり、文字の集合を定義したもので、日語であれば JIS X 0208(第一、第ニ水準)をはじめ、JIS X 0212(補助漢字) 、 JIS X 0213(第三、第四水準)等があります。 それに対して、符号化方式とは、文字集合に含まれる各文字をどのようなコードに割り当てるのかというもの。 1つの文字集合JIS X 0208に対しても、ISO-

  • 1