タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

unicodeとrubyに関するmas-higaのブックマーク (1)

  • Ruby 2.7 の変更点 - Encoding / Fiber / FrozenError - tmtms のメモ

    Ruby 2.7 アドベントカレンダーの19日目の記事です。 qiita.com Encoding::CESU_8 追加 Fiber#raise 追加 FrozenError#receiver 追加 Encoding::CESU_8 追加 自分は知らなかったのですが、Unicode の文字エンコーディングに UTF-8 の亜種で CESU-8 というのがあるらしく、2.7 でそれに対応しました。 通信用語の基礎知識 より: UTF-8の亜種の一つで、Oracleが使っている不届き千万な仕様の一つ。 UTF-8(RFC 2279 [外部リンク] )では、サロゲートペアは適時解釈してから符号化せねばならない。 しかしこのCESU-8は、サロゲートの各ペアを機械的にUTF-8に変換するのみであり、supplementary characterは6バイトで表現される。これはUTF-8の仕様から

    Ruby 2.7 の変更点 - Encoding / Fiber / FrozenError - tmtms のメモ
    mas-higa
    mas-higa 2019/12/24
    “UTF-8 の亜種で CESU-8 というのがあるらしく” arton さんがリクエストしてたやつか?
  • 1