AC_2017-12-08.md UTF-32 でも固定長で処理出来るわけではない 2024/04/17 更新 この記事は、自作OS Advent Calendar 2017の 12/8 の記事として書かれました。 もう、日本語の漢字や仮名を 2 バイト文字と呼ぶのは、やめよう IT 系のニュースサイトでも、未だに日本語の漢字や仮名のことを 2 バイト文字と呼んでいる記事が散見されます。 2017 年現在、UTF-8 という Unicode の符号化方式が主流で、日本語の漢字や仮名は 3 バイト~ 4 バイトで表現されることが多く、後述する結合文字や異体字セレクタのようなものまで含めると、さらにバイト数は増加します。日本語の漢字や仮名を 2 バイト文字と呼ぶことは適切ではありません。 Unicode の UCS-2 Unicode の規格が始まったばかりの頃は、世界の文字を 2 バイトで表