(作成中) 序論 システム開発において、いわゆる「文字化け」の原因は、文字のデータ表現に対する理解不足にあることが多い。 文字のデータ表現について整理し、頻繁に見られる過ちを分類することで、「文字化け」発生前・発生後の対策を試みる。 文字のデータ表現 文字集合 (character set/charset) 一般には、「文字のバイト表現」を「文字コード」と呼ぶ。文字コードについての代表的な規格として、ASCII がある。 文字コードを使用するには、文字とバイト列との「対応表」を決定し、それに基づいて文字のコード化を行う。この対応表は、使用する文字を集めたものであるため、「文字集合」と呼ばれる。 公式な文字集合の一覧は IANA で管理されており、登録手順は RFC 2278 で規定されている。 RFC 2278: IANA Charset Registration Procedures h