タグ

2024年2月10日のブックマーク (1件)

  • 誰がUTF-32が使われてないなんて言ったんだ | κeenのHappy Hacκing Blog

    最近ではUTF-8でソースコードを書いてUTF-8で出入力をする。それ以外のエンコーディングは使われていない。…だと?誰がそんなこと言ったんだ ASCIIと古いUnicodeと新しいUnicode 少し長くなるが文字コードの話から始まる。ASCIIはお馴染み最低7bitあればASCIIの定義する文字集合を表せる。 古いUnicodeは16bitで全ての文字を表わすことを目標に作られた。 新しいUnicodeは文字(主に漢字)が多過ぎて16bitでは表せなかったので21bitに拡張された。 文字コードとエンコーディング 文字コードをどういう形式で表すかがエンコーディングだ。文字コードが7bit、16bit、21bitだからといってそのままのサイズで表わす訳ではない。ASCIIは普通8bitの型で表わすし21bitの型を用意するよりは32bitの型に格納した方が扱い易そうだ。あるいは8bit

    誰がUTF-32が使われてないなんて言ったんだ | κeenのHappy Hacκing Blog
    masatoi
    masatoi 2024/02/10
    “SBCL(Common Lispのメジャーな処理系)はUTF-32を使う”なるほど、確かにCommon Lispでは文字列は文字型の配列だから、内部表現で文字種毎に長さが違ったらランダムアクセスできないか