タグ

文字コードに関するsosukのブックマーク (2)

  • ホームページ例文辞典

    ■ページの文字が化けてしまう、表示が変になるのはなぜ? ページを作成した後にブラウザで確認すると文字が正しく表示されないことがあります。正しく表示されないのばアルファベットや数字以外、日の場合では日語が化けてしまうことがあります。このような現象は「文字化け」と言われ古くから存在します。 古くからある、というのもコンピューターは元々1バイトで文字を表現していました。1バイトというのは8ビット=256文字になり、英文字や数字は256文字分あれば十分足ります。しかし、日語や中国語では256文字では足りません。漢字や平仮名、カタカナなど非常に多くの文字が存在するためです。古くはカタカナを256文字のコードセットの後半に割当てたりして利用していました。これが半角カタカナと言われるものです。 1バイトでは足りないなら2バイト=65536文字にすれば良さそうです。という事で漢字や平仮名は2バイトで

  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
  • 1