タグ

ブックマーク / kazama.hatenablog.com (1)

  • 常用漢字表のUnicode補助文字問題 - Cafe Babe

    京大の安岡先生が常用漢字表でUnicode補助文字(Unicode Supplementary Character)の領域に割り当てられている文字がレガシーなシステムでうまく扱えないことを問題にしている. どうして常用漢字表を改定するハメになったのか(yasuokaの日記) まあ,Shift-JISや日語EUCを使って実装しているシステムで扱えないのは当然だが,Unicodeを使っているシステムでも正しく扱えるとは限らない.というのは,Unicode補助文字というのは,U+10000〜U+10FFFFの領域に符号化されており,UTF-16ではサロゲートペアを使って表現され,UTF-8では4バイトに符号化されるからだ.文字がU+0000〜U+FFFFだけにあることを前提に実装された古いシステムでは,何が起こるかわからない.この辺は,我々がJava言語に対しておこなった話が参考になるとおもう

    常用漢字表のUnicode補助文字問題 - Cafe Babe
    khiker
    khiker 2010/06/01
    常用漢字
  • 1