Last update: 2014/08/09 (c)2000-2003,2007,2013-2014 seclan. All rights reserved. Homepage: http://seclan.dll.jp/ E-mail: seclan[ここはアトマークに置き換えてください]dll.jp Q. UTF って何? Unicode (または UCS) Transformation Format の略語です。今のところ、UTF-1, UTF-2, UTF-5, UTF-6, UTF-7, UTF-8, UTF-9, UTF-16, UTF-17, UTF-18, UTF-32 があります。しかし、実際使用されているのは、UTF-8, UTF-16, UTF-32 です。 Q. UCS って何? Universal Character Set の略語です。ISO 10646 の文
多バイト方式 さて、前文書で2バイト系の日本語コードについて見て来たのだが、結局、アルファベットの大文字・小文字・1バイト系カタカナ・日本語を全て丸くおさめて、統一的に扱うことのできる体系はシフトJISのみであった。 つまり、2バイト(16bit)系のシステムにおいては、シフトJISが最も優秀なコードということになる。しかし、実は以前から一部のワープロ専用機などでは、3バイトの日本語コードが使用されていた。これは先頭1バイトで文字の種別を指定し、残りの2バイトに実際のコードを入れる。 この方法を使うと、シフトJISでサポートしている字種に加えて、1バイト系ひらがななども問題なく使用できる。実は似たようなことをしているのが、新EUCである。 新EUC EUC(Extended Unix Code) は UNIXの世界で日本語を扱うために1985年に定められたコード表現体系である。この EUC
最近unicodeに対応したソフトが増加してくるにつれ、用語の混乱も一部には見られるようになってきました。そこで特に触れることの多い、UTF-7,UTF-8,UTF-16 についてここで少し取り上げておきたいと思います。 UnicodeとUCS UnicodeはThe Unicode Consortiumが定めた文字コードの規格である。UCSはISOとIECが共同で制定したもので、ISO/IEC 10646 の規格番号が付いている。両者は大雑把にいえば同じものと考えてもよいのだが、違う機関が定めたものである故に、微妙に(?)差があるのも事実である。 ■Unicode側の改訂経緯 Unicode1.0(1991) アメリカの技術者を中心に作られ、漢字コードは極めてデタラメ Unicode1.1(1993) 中国の技術者が加わり、少しはまともになる。日本が猛反発。 Unicode2.0(199
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く