Unicode正規化について Unicode正規化とは、文字を分解・合成することをいいます。Unicodeの文字は、見た目は同じでも複数の表現方法が存在するものがあります。例えば、「â」は「â」(U+00E2)の1つのコードポイントとしても表せますし、「a」(U+0061)と「 ̂」(U+0302)の2つの分解されたコードポイント(基底文字+結合文字)でも表せます。前者を合成済み文字、後者を結合文字列(combining character sequence, CCS)と呼びます。 Unicode正規化には、以下の種類があります。