タグ

2010年11月16日のブックマーク (1件)

  • iconvの「UTF-8」はBOMが無いものとみなす - yanok.net

    文字コード変換プログラムのiconvでは、文字コード「UTF-8」において、入出力ともにBOMを用いません。 出力においてBOMを使わないということは、すぐに納得がいくことと思います。UTF-8として出力されるバイト列の先頭にBOMがつかないということです。 かたや、入力においてというのがどういうことかというと、BOMに相当するバイト列を 見ても、それをBOMとは認識しないということです。 つまり、データ先頭にEF BB BFという3バイトがあったら、それをBOMとして消費するのでなく、単なる普通の1文字のように扱うのです。 ちょっと実験してみましょう。 UTF-8にBOMを付けて出力するプログラムとしてポピュラーなのはWindowsのメモ帳です(XPで確認)。メモ帳でUTF-8としてテキストを保存するともれなくBOMがついてきます。 例えば、メモ帳で「あ」とだけ書いて改行し、UTF-8