タグ

文字コードに関するkyousuke104のブックマーク (2)

  • [2] 様々な文字コード - インターネットメールの注意点

    なのですが、実際に使われるときは文字数とバイト数がうまく対応しなくて混乱するので注意してください。 例えば、ISO-2022-JPだとエスケープシーケンスが現われるたびに3バイトずつ増えます。 EUC-JPだと「次の文字はJIS X 0201」という意味で制御文字SS2を付けるので、1文字2バイトに見えるし、「次の文字はJIS X 0212」という意味で制御文字SS3を付けるので、1文字3バイトに見えます。 Unicodeはもっと複雑です。 更に、行の区切りを表す制御文字CRとLFがあれば、そのぶんバイト数が増えます。 [*] KI/KO 文献によっては、ESC $ @とESC $ BをKI、ESC ( BとESC ( JをKOと書いていますが、正しくありません。インターネット関連の規格には、KI/KOという言葉は出てきません。 日語拡張されたEBCDICにはKI/

  • 文字コード規格の基礎:ITpro

    この記事は,日経ソフトウエア 1999年10月号に掲載したものです。それ以降の情報が盛り込まれていませんので,現在とは異なる場合があります。 文字コード規格の基礎を手早く理解したい場合などにお役立てください。 文字コードは間違いなく情報を交換するための「決まりごと」なので,正確を期すため厳密な仕様が規定されている。だが,その仕様そのものを実装するプログラムを作る場合を除けば,プログラマが仕様の詳細を隅々まで理解している必要はない。六法全書を読んでいなくても問題なく普段の生活ができるようなものだ。 ここでは,通常のプログラミングをするうえで必要と思われる範囲のことを,なるべく簡潔に説明したい。「半角カナ」のような呼び名は正確さを欠くものだが,多くの人に伝わりやすいので説明の中でも使っていく。説明を簡略化するため「正確な仕様を知りたいときは規格書そのものを必ず参照してほしい」と書きたいところだ

    文字コード規格の基礎:ITpro
  • 1