khikerのブックマーク - はてなブックマーク

khiker id:khiker

ブックマーク / kazama.hatenablog.com (1)

常用漢字表のUnicode補助文字問題 - Cafe Babe
京大の安岡先生が常用漢字表でUnicode補助文字(Unicode Supplementary Character)の領域に割り当てられている文字がレガシーなシステムでうまく扱えないことを問題にしている．どうして常用漢字表を改定するハメになったのか（yasuokaの日記）まあ，Shift-JISや日本語EUCを使って実装しているシステムで扱えないのは当然だが，Unicodeを使っているシステムでも正しく扱えるとは限らない．というのは，Unicode補助文字というのは，U+10000〜U+10FFFFの領域に符号化されており，UTF-16ではサロゲートペアを使って表現され，UTF-8では4バイトに符号化されるからだ．文字がU+0000〜U+FFFFだけにあることを前提に実装された古いシステムでは，何が起こるかわからない．この辺は，我々がJava言語に対しておこなった話が参考になるとおもう
khiker 2010/06/01
常用漢字

Unicode
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx