タグ

unicodeに関するreboot_inのブックマーク (1)

  • バイト順マーク - Wikipedia

    プログラムがテキストデータを読み込む時、その先頭の数バイトからそのデータがUnicodeで表現されていること、また符号化形式(エンコーディング)としてどれを使用しているかを判別できるようにしたものである。[1] Unicodeが開発された当初は、アメリカではASCII、ヨーロッパなどではISO-8859、日ではShift_JISやEUC-JPといった他の文字コードが主流であり、使用されている符号化方式がUnicodeのものであることを明示する必要があった。また、Unicodeの符号化方式は複数あり、特にUTF-16やUTF-32にはそれぞれエンディアンが異なる2種類があるため、符号化方式同士を区別する必要があった。その方法として、先頭のデータにテキスト以外のデータを入れることが発案された。 実際にBOMを使用すべきか、あるいは使用すべきでないかは、Unicodeを利用したより上位の仕様に

    reboot_in
    reboot_in 2021/03/23
    “このデータを元にUnicodeで符号化されていることおよび符号化の種類の判別に使用する。”
  • 1