タグ

JIS2004とutf-8に関するcnomiyaのブックマーク (2)

  • まさゆき's 日記

    月曜日 9月 24, 2007 サロゲート ペアを含んだ XML の読み書き サロゲート ペアを含んでいる場合、UTF-16 で XML ファイルを読み書きすれば、ほとんど問題ないが、UTF-8 の場合 Modified UTF-8 の存在によってちょっと気をつける必要がある。 たとえば、次のようなコードはこの問題にぶち当たる。 public class SurrogatePairTest { private static final String SURROGATE_PAIR_ELEMENT = "surrogate-pair"; private static final String SURROGATE_PAIR = "\ud842\udf9f"; private static final File SURROGATE_PAIR_FILE = new File("SurrogatePa

    cnomiya
    cnomiya 2008/09/08
    Modified UTF-8って何?
  • UCS-2とUTF-8

    最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき,文字コードの方式が2種類,あるいはそれ以上あることに気が付かれるかもしれません。例えば,一つはUnicodeとあるのに対し,もう一つはUnicode (UTF-8)と表記されているかもしれません。この2つは,また,その違いは何でしょうか(前者はUTF-16の一形態なのですが…)。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット,ISO-10846-1は,16ビット(16桁の二進数)でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets,「2つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット(8桁の二進数)のことです。 ユニコードの特定の文字は,例

    cnomiya
    cnomiya 2008/09/01
    UTF-16では,UCS-4にあってUCS-2にない文字のうち,U+10000からU+10FFFFの範囲を,(unicode consortiumのいうところの)サロゲートペアとして表します。
  • 1