タグ

2007年11月2日のブックマーク (2件)

  • 文字コードの墓場 - しいしせねっと

    Last update  日語には、いろんな文字コードがあります。 ややこしすぎるので、嫌です。 文字集合 エンコード + 文字コード 変換表 基礎知識 文字セット、エンコード(符号化方式)、2種類にわけて、この組み合わせで1つの文字コードになります。Unicodeをベースにしていることもあるのでさらに変換表的なものも加わると恐ろしいぐらいいろいろあります。 文字セットは、JISの場合、区点番号という区(row)と点(cell)と呼ばれる2つのコードを合わせて漢字1文字を指定します。区と点は1バイト目と2バイト目のような関係です。JISの区点はそれぞれ1〜94です。JIS X 0213やUnicodeになると区点では不足するため面(plane)という区点を区別するコードを加え、面区点の3つで区別します。 ISO-10646などでは、面区点でも不足する可能性があるため群(group)とい

  • CP932とは : JavaA2Z

    Windowsでの正しい文字コード。 Windowsの文字コードは、一般的には「シフトJIS」だが、正しくは「CP932」である。 「MS932」とも言う。 CP932は、シフトJISを拡張したものである。 ただし、基的には文字コードとしての違いはない。各文字の「整数値としての値」が異なることはない。 違いが現れるのは、他の文字コードへと変換する場合である。 他の文字コードへと変換する場合、「~」や「-」といった一部の文字が、異なる整数値へと変換される。 たとえばUnicodeへと変換する場合、以下のように変換される。 ■「~」 ・シフトJIS:0x81,0x60→Unicode:0x301C ・CP932:0x81,0x60→Unicode:0xFF5E ■「-」 ・シフトJIS:0x81,0x7C→Unicode:0x2212 ・CP932:0x81,0x7C→Unicode:0xF