日本人が「普通に使う Unicode 文字列」は NFC とか NFD とかの正規化形式になっているかを、調べてみることにする。 といっても、何が「普通に使う Unicode 文字列」かを決めないと話が始まらない。ここでは、 レガシーな文字コードで表されたテキスト文字列を(標準の方法で)Unicode に変換して得られた Unicode 文字列 を対象にする。つまり、 特定の文字コードからの(標準的な)変換の結果の Unicode 文字列は必ず特定の Unicode 正規化形式を満たすか を調べることにする。例えば Latin-1 について考えると、以下のようになる。 Latin-1 の文字列を Unicode に(標準的に)変換した場合、U+0000〜U+00FF の範囲にある文字しか現れない。 この範囲の文字からなる Unicode 文字列は必ず NFC である。 しかし、そのような文