タグ

ブックマーク / yanok.net (2)

  • 英文に痴がまじるとき - yanok.net

    某通販世界大手の日語サイトを見ていたら、英文の中に「痴」という文字が混じっていることに気づきました。海外からのメールがこう表示されるのは時々見かけますが、世界大手の企業のサイトでもあるとは意外でした。 例えば、「world痴」「president痴」のように、単語の後ろに「痴」が続くのが典型例です。 これは何かというと、Windowsのベンダ定義外字を使って「's」と記したものをシフトJISとして解釈するとこうなります。 英語版のWindowsのベンダ定義外字、Windows-1252と呼ばれることがありますが、これはISO/IEC 8859-1 (Latin-1)の制御文字の領域に独自に字を割り当てたものです。 この中に、左右を区別したシングルクォーテーションマークがあります(JIS X 0208にもありますね)。これが時々、アポストロフィとして使われることがあります。ASCIIにはア

  • 「文字コード技術入門」制作で直面した文字コード問題 - yanok.net

    書 (「プログラマのための文字コード技術入門」)の原稿はコンピュータ上でテキストエディタを使って書いています。そうすると、文字コード値の羅列として文を表現することになります。 書には、「ト゚」や「か゚」のようにUnicodeで合成の必要な文字や「𩸽」のようなBMP外の符号位置にある文字、あるいは「海」のようにUnicodeの正規化処理で別の符号位置に置き換わってしまう文字などがふんだんに盛り込まれています。 このため、書の執筆・編集において、まさに文字コードの問題に直面することになりました。 私が執筆に使っているのはEmacs 22です。このエディタでは、テキストをEUC-JIS-2004 (Emacsのcoding system名としてはeuc-jisx0213)として保存している分にはいいのですが、UTF-8として保存しようとすると、「か゚」のように結合文字を使う文字については

  • 1