タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Unicodeとcharsetに関するmasakielastic2のブックマーク (3)

  • 日本語と文字コード

    コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト(7/8ビット)を基単位として扱う前提で作られているものが中心です。そのなかで日語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日語の文字コードに関する基を整理しておきます。 JIS漢字コード(情報交換用符号化漢字集合) 区点コード JISコード(符号化方式) シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ 参考文献、リソース 文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード(情報交換用符号

  • シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

    2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。 最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。 おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。 変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。 変換表に求めら

  • XML日本語プロファイル 目次

    まえがき 序文 1. 適用範囲 2. 引用規定 3. 定義 3.1 日語文字 3.2 符号化文字集合 3.3 文字符号化スキーム 3.4 charset 3.5 XML文書構成単位 4. 符号化文字集合に関する規定 4.1 JIS X 0201 4.2 JIS X 0208:1978(第1版) 4.3 互換性文字 5. 文字符号化スキームに関する規定 5.1 UTF-16 5.2 UTF-8 5.3 シフトJIS 5.4 日語EUC(圧縮形式) 5.5 ISO-2022-JP 6. charset名に関する規定 6.1 日語文字を含むXML文書に用いるcharset 6.2 通信路の途中での文字符号化スキームの変換 6.3 受信したXML文書構成単位の情報交換用ファイルへの格納 7. 情報交換用ファイル中のXML文書構成単位 8. HTTP1.1によるXML文書構成単位の配送 9.

  • 1