京大の安岡先生が常用漢字表でUnicode補助文字(Unicode Supplementary Character)の領域に割り当てられている文字がレガシーなシステムでうまく扱えないことを問題にしている. どうして常用漢字表を改定するハメになったのか(yasuokaの日記) まあ,Shift-JISや日本語EUCを使って実装しているシステムで扱えないのは当然だが,Unicodeを使っているシステムでも正しく扱えるとは限らない.というのは,Unicode補助文字というのは,U+10000〜U+10FFFFの領域に符号化されており,UTF-16ではサロゲートペアを使って表現され,UTF-8では4バイトに符号化されるからだ.文字がU+0000〜U+FFFFだけにあることを前提に実装された古いシステムでは,何が起こるかわからない.この辺は,我々がJava言語に対しておこなった話が参考になるとおもう