タグ

Bookとencodingに関するseuzoのブックマーク (1)

  • 「文字コード技術入門」制作で直面した文字コード問題 - yanok.net

    書 (「プログラマのための文字コード技術入門」)の原稿はコンピュータ上でテキストエディタを使って書いています。そうすると、文字コード値の羅列として文を表現することになります。 書には、「ト゚」や「か゚」のようにUnicodeで合成の必要な文字や「𩸽」のようなBMP外の符号位置にある文字、あるいは「海」のようにUnicodeの正規化処理で別の符号位置に置き換わってしまう文字などがふんだんに盛り込まれています。 このため、書の執筆・編集において、まさに文字コードの問題に直面することになりました。 私が執筆に使っているのはEmacs 22です。このエディタでは、テキストをEUC-JIS-2004 (Emacsのcoding system名としてはeuc-jisx0213)として保存している分にはいいのですが、UTF-8として保存しようとすると、「か゚」のように結合文字を使う文字については

  • 1