タグ

2021年7月1日のブックマーク (1件)

  • utf8mb4は誰がどこで決めた仕様?

    全般的におかしいので指摘を残しておきます Unicode には BMP (Basic Multilingual Plane) という概念があって https://ja.wikipedia.org/wiki/%E5%9F%BA%E6%9C%AC%E5%A4%9A%E8%A8%80%E8%AA%9E%E9%9D%A2 これは UNICODE 3.0 までで追加された「よく使うであろう」文字のセットのことで BMPは「文字のセット」ではありません。Basic Multilingual Planeという言葉の通り、面すなわち領域のことです。 BMPへの追加は今でも行われており、Unicode3.0までがBMP、それ以降が追加面、という区別の仕方は誤りです。 BMP にある文字は UTF-8 エンコーディングでは 3byte となります。 BMP 外の文字は UTF-8 エンコーディングで 4byt

    utf8mb4は誰がどこで決めた仕様?
    nogoro
    nogoro 2021/07/01
    utf8より新たなutf8mb4の方が真のUTF-8と言える? BMP(Basic Multilingual Plane)は3Byteで,絵文字なども含む4Byteはutf8mb4でないと扱えない。UTF-16のサロゲートペアの話題も。