タグ

ブックマーク / emptypage.jp (1)

  • Unicode テキスト境界処理覚え書き

    [1] 「アショクがホッケべた!」の意。 ただし、このコード・ポイントの連続を実際にコンピュータ上でどのようなビットで表現するかは実装によって異なってきます。 符号化方式 最大で 10FFFF(16 進)を取るコード・ポイントを実際にコンピュータで扱うことを考えてみます。コード・ポイントの連続を実際にコンピュータ上でどのようなビットで表現するかを、「符号化方式(encoding)」と言います。 UTF-32 ひとつのコード・ポイントを 32 ビットの整数値として保持するようにした場合は話は簡単です。すべてのコード・ポイントが 32 ビットに収まるので、このような実装の場合、Unicode 文字列は 32 ビットの整数値の連続となり、このシーケンスの長さがすなわち格納しているコード・ポイントの数になります。この符号化方式を UTF-32 と呼びます。UTF は “Unicode Trans

    none53
    none53 2015/11/10
    Unicode テキスト境界処理覚え書き
  • 1