ユニコードにはいくつかの種類があり、最もよく使用されるのがUTF-8とUTF-16です。 UTF-8の日本語で使用されるものは、半角文字は1バイト、全角文字は3バイト(一部2バイト)で表されます。 UTF-16の日本語で使用されるものは、半角文字も全角文字も2バイトで表されます。 UTF-8は、全角文字が3バイトで表記されるため、他のコードで記載したファイルに比べ、容量が大きくなります。 このページにある全角文字は、21420文字です。 Unicodeは漢字を画数の少ない『一』から、画数順になっているのに対し、 それ以外の文字コードは50音順の『亜』から始まっています。 UTC(Unicode Technical Committee)の定義したUnicode文字のブロックの範囲は以下です。 しかし漢字の中には『F9xx』『FAxx』のものもわずかにあります。 文字の種類ブロックの範囲(16