タグ

2011年6月29日のブックマーク (2件)

  • 多言語化

    Ruby は US-ASCII はもちろん、US-ASCII 以外の文字エンコーディングもサポートしています。 文字列の内部表現のエンコーディングは固定されておらず、 プログラマは目的に応じて使用するエンコーディングを選ぶことができます。 同じプロセスの中で異なるエンコーディングの文字列が同時に存在することができます。 全ての String や Regexp などのオブジェクトは自身のエンコーディング情報を保持しています。 これにより各オブジェクト内の文字を適切に取り扱うことができます。 後述のマジックコメントでスクリプトエンコーディングを指定すると、 Ruby スクリプトに非 ASCII 文字を使うことができます。(magic comment) 文字列リテラルや正規表現リテラルだけでなく変数名、メソッド名、クラス名などにも 非 ASCII 文字を使うことができます。ただし文字列リテラル・

    hfu
    hfu 2011/06/29
    一方、ruby スクリプトではマジックコメントが導入された。おやすみなさい。 @Magepa
  • UCS と Unicode

    UCS ( Universal Multiple-Octet Coded Character Set ) は全ての言語の 文字を一つの ( 統一された ) コードに割り当てるものです。 コードテーブルは 0 〜 0x7FFFFFFF と、約21億文字分 有ります。 1文字あたり4バイト使用するため UCS-4 とも呼ばれます。 Unicode は UCS の 0 〜 0x10FFFF ( 約 111 万文字 ) の部分をいいます。 使います、と書きましたが実際は UCS と Unicode は策定しているグループが異なります。 UCS を策定しているグループが下位部分を採用したことから互換性が発生し、 サブセット(部分集合)レベルでは同一とみなせるのが現状です。 UCS-4 の範囲では UCS-4 ( UTF-32 とも呼ばれます ) と UTF-8 の2種類のコーディ

    hfu
    hfu 2011/06/29
    「表現できる文字の範囲を 0 ~ 0xFFFF までに限った場合は UCS-2」勉強になります @Magepa