Unicode の UTF-8 コード化 プログラムで UTF-8 を扱う際に気づいたことなど。メモ。 Unicode とは Unicode は、世界で使われる全ての文字を共通の符号化文字集合にて利用できるようにしようという考えで作られた文字集合である。元々16ビットの文字集合で全ての文字の網羅を目指して開発されたが、コードポイントが圧倒的に足りず、現在では21ビットの文字集合として規定されている。 Unicode の文字を表現する場合、"U+" にその文字のコードポイントを表す16進数を続けた文字列を使って表す。たとえば、"A" という文字は Unicode ではコードポイント 41 にあり、"U+0041" となる。 UTF-8 とは 実際にコンピュータで Unicode を扱う際は符号化を行う。その符号化方式の 1 つが UTF-8 である。 8 bit 単位の可変長コード(1-4