タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

テキスト処理に関するsagarayaのブックマーク (3)

  • 文字コード特集

    前述の「A」は16進表記では「0x41」となります。 ASCIIコード その名(American Standard Code for Information Interchange)が示すように、元々米国の標準コードです。ISO(国際標準化機構)により標準化され、JIS(日工業規格)の1バイトコード(JIS X 0201)も、このASCIIコードをベースとしているため、英数字のコードについてはASCII/JIS間で互換性があります。 来のASCIIコードでは、1バイト(8ビット)のうち、最上位の1ビットは使用されておらず、7ビット(0x00〜0x7F)、128文字が割り当てられています。 このうち、0x00〜0x1Fと0x7Fが制御文字、0x20が空白、0x21〜0x7Eが普通の文字や記号です。制御文字というのは、例えばMacの改行コード(CR)は0x0Dです。 1バイトコー

  • 文字コードの話

    稿は、1996年に筆者が大学の所属サークルの機関誌に寄稿した記事をもとに加筆訂正したものです。(最終更新 1999.7.31) 目次 はじめに 第1章 日語のコード体系 第2章 ASCIIと1バイト文字コード 第3章 JIS漢字コードとエンコーディング法 第4章 ISO 2022 第5章 ISO 2022の実例 第6章 中国語・韓国語の文字コード 第7章 ISO 10646とUnicode おわりに 参考文献 はじめに ASCIIだけで用が足りるアメリカと違って、 私たちは日語を扱わなくてはならないため、 より深く文字コードの問題と関わらざるをえません。 それでも、MS-DOS/WindowsMacを使う限りでは、 ASCIIとシフトJIS(たまにJIS)を知っていれば済みますが、 UNIXやインターネットを使い始めると、 JIS・EUC・シフトJISとさまざまな日語コードに頭を

  • Unicodeのcharacter概念に関する一考察

  • 1