タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

utf-8に関するkaz_hiramatsuのブックマーク (4)

  • UCS と Unicode

    UCS ( Universal Multiple-Octet Coded Character Set ) は全ての言語の 文字を一つの ( 統一された ) コードに割り当てるものです。 コードテーブルは 0 〜 0x7FFFFFFF と、約21億文字分 有ります。 1文字あたり4バイト使用するため UCS-4 とも呼ばれます。 Unicode は UCS の 0 〜 0x10FFFF ( 約 111 万文字 ) の部分をいいます。 使います、と書きましたが実際は UCS と Unicode は策定しているグループが異なります。 UCS を策定しているグループが下位部分を採用したことから互換性が発生し、 サブセット(部分集合)レベルでは同一とみなせるのが現状です。 UCS-4 の範囲では UCS-4 ( UTF-32 とも呼ばれます ) と UTF-8 の2種類のコーディ

  • 文字符号化方式 - Wikipedia

    文字符号化方式(もじふごうかほうしき、英: character encoding scheme、CES)とは、符号化文字集合で文字に対応付けた非負整数値を、実際にコンピュータが利用できるデータ列(通常、バイト列)に変換する符号化方式。 文字符号化体系、文字符号化スキーム (CCS) とも言う。文字について述べていることが明確なときは、単に符号化方式、またIBMの用語ではコード化体系 (ES) などとも言う。 この用語はUnicodeやIETFの標準などで用いているが、ISO/IECやJISの標準では用いず「符号化文字集合の構造」あるいは「文字符号の構造及び拡張法」として扱われている。この用語の定義は、世界の文字コード規格とは必ずしも合致しないことがある。 符号化文字集合と文字符号化方式[編集] 符号化文字集合とCESの関係を示すため、JIS X 0208を例にとる。なお、話を簡単にするため

  • 文字集合 - Wikipedia

    文字集合(もじしゅうごう、英: character set)は、文字、特にコンピュータにおけるキャラクタをその要素(「元」)とする集合である。文字セットという場合もある。 例えば、「全てのアルファベット」(a, b, c, ..., z, A, B, C, ..., Z)というのもひとつの文字集合であるし、「全てのひらがな」(あ, い, う, ..., ん)というのもまた、ひとつの文字集合である。 コンピュータにおける文字集合[編集] コンピュータ上で文字を扱う場合、典型的には文字による通信を行う場合にその両端点では、どのような文字集合を使うか、あらかじめ取り決めておく必要がある。あらかじめ定義された符号化文字集合(後述)を使う、とすることが多い。 レパートリ[編集] 符号化文字集合(後述)の収録対象となる文字群をレパートリという。標準や規格によって用語に違いがあり次のように定義されている

  • UCS-2とUTF-8

    最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき,文字コードの方式が2種類,あるいはそれ以上あることに気が付かれるかもしれません。例えば,一つはUnicodeとあるのに対し,もう一つはUnicode (UTF-8)と表記されているかもしれません。この2つは,また,その違いは何でしょうか(前者はUTF-16の一形態なのですが…)。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット,ISO-10846-1は,16ビット(16桁の二進数)でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets,「2つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット(8桁の二進数)のことです。 ユニコードの特定の文字は,例

  • 1