[B! utf-8] kaz_hiramatsuのブックマーク

kaz_hiramatsu id:kaz_hiramatsu

utf-8に関するkaz_hiramatsuのブックマーク (4)

UCS と Unicode
UCS ( Universal Multiple-Octet Coded Character Set ) は全ての言語の文字を一つの ( 統一された ) コードに割り当てるものです。コードテーブルは 0 〜 0x7FFFFFFF と、約２１億文字分有ります。１文字あたり４バイト使用するため UCS-4 とも呼ばれます。 Unicode は UCS の 0 〜 0x10FFFF ( 約 111 万文字 ) の部分をいいます。使います、と書きましたが実際は UCS と Unicode は策定しているグループが異なります。 UCS を策定しているグループが下位部分を採用したことから互換性が発生し、サブセット(部分集合)レベルでは同一とみなせるのが現状です。 UCS-4 の範囲では UCS-4 ( UTF-32 とも呼ばれます ) と UTF-8 の２種類のコーディ
kaz_hiramatsu 2008/10/02
unicode

utf-8

ucs
リンク
文字符号化方式 - Wikipedia
文字符号化方式（もじふごうかほうしき、英: character encoding scheme、CES）とは、符号化文字集合で文字に対応付けた非負整数値を、実際にコンピュータが利用できるデータ列（通常、バイト列）に変換する符号化方式。文字符号化体系、文字符号化スキーム (CCS) とも言う。文字について述べていることが明確なときは、単に符号化方式、またIBMの用語ではコード化体系 (ES) などとも言う。この用語はUnicodeやIETFの標準などで用いているが、ISO/IECやJISの標準では用いず「符号化文字集合の構造」あるいは「文字符号の構造及び拡張法」として扱われている。この用語の定義は、世界の文字コード規格とは必ずしも合致しないことがある。符号化文字集合と文字符号化方式[編集] 符号化文字集合とCESの関係を示すため、JIS X 0208を例にとる。なお、話を簡単にするため
kaz_hiramatsu 2008/06/28
unicode

utf-8
リンク
文字集合 - Wikipedia
文字集合（もじしゅうごう、英: character set）は、文字、特にコンピュータにおけるキャラクタをその要素（「元」）とする集合である。文字セットという場合もある。例えば、「全てのアルファベット」(a, b, c, ..., z, A, B, C, ..., Z)というのもひとつの文字集合であるし、「全てのひらがな」(あ, い, う, ..., ん)というのもまた、ひとつの文字集合である。コンピュータにおける文字集合[編集] コンピュータ上で文字を扱う場合、典型的には文字による通信を行う場合にその両端点では、どのような文字集合を使うか、あらかじめ取り決めておく必要がある。あらかじめ定義された符号化文字集合（後述）を使う、とすることが多い。レパートリ[編集] 符号化文字集合（後述）の収録対象となる文字群をレパートリという。標準や規格によって用語に違いがあり次のように定義されている
kaz_hiramatsu 2008/06/28
unicode

utf-8
リンク
UCS-2とUTF-8
最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例
kaz_hiramatsu 2008/06/27
unicode

utf-8
リンク
1