タグ

unicodeとUTF-8に関するincepのブックマーク (2)

  • GitHub - hamano/locale-eaw: East Asian Ambiguous Width問題のための修正ロケール

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - hamano/locale-eaw: East Asian Ambiguous Width問題のための修正ロケール
    incep
    incep 2022/04/27
    このまとめは助かります,MacOSのターミナル系アプリで必ず直面する問題.
  • バイト順マーク - Wikipedia

    プログラムがテキストデータを読み込む時、その先頭の数バイトからそのデータがUnicodeで表現されていること、また符号化形式(エンコーディング)としてどれを使用しているかを判別できるようにしたものである。[1] Unicodeが開発された当初は、アメリカではASCII、ヨーロッパなどではISO-8859、日ではShift_JISやEUC-JPといった他の文字コードが主流であり、使用されている符号化方式がUnicodeのものであることを明示する必要があった。また、Unicodeの符号化方式は複数あり、特にUTF-16やUTF-32にはそれぞれエンディアンが異なる2種類があるため、符号化方式同士を区別する必要があった。その方法として、先頭のデータにテキスト以外のデータを入れることが発案された。 実際にBOMを使用すべきか、あるいは使用すべきでないかは、Unicodeを利用したより上位の仕様に

    incep
    incep 2019/07/05
    Unicode符号化形式毎のバイトオーダーマークの一覧あり
  • 1