2008年02月27日08:32 カテゴリ UTF-8とUTF-8Nの違いによるワナ rubyを書いているのだが、結構意外なところではまって、時間を費やしてしまったのでメモしておく。 どうやらUTF-8にはUTF-8とUTF-8Nの2種類がある。それらの違いは、UTF-8ではBOM(Byte Order Mark)と呼ばれる、エンディアンを判定するためのデータが先頭3バイトに書き込まれ、UTF-8Nでは書き込まれないというもの。 (追記20080401:コメントでご指摘をいただいたように、上の表記は適切ではありません。正しくは「UTF-8」では基本的にBOMは付与されず、BOMが付与された場合に限り「UTF-8BOM」などの表記を与えて区別するべきであるようです。wikipadia「UTF-8」 本来であればすべての表記を変更すべきですが、ここではTerePadがBOMつきのUTF-8を「