タグ

bomに関するtakaesuのブックマーク (4)

  • BOM つき UTF-8 ファイルの作り方・確認方法・削除方法 - @kyanny's blog

    CSV ファイルを一行ずつ処理するプログラムを実行したら一行目のデータでエラーになったが、ログをみてもファイルをエディタや cat(1) でみてもおかしなところはない、ということがあって、 BOM かな?と思ったけど BOM つきかどうか確認するのに手間取ったので、次回(何年後だろう)のためにメモ。 BOM がついてるか確認する more(1) か less(1) で開いてみてファイル先頭に <U+FEFF> があったらビンゴ。 file(1) でも教えてもらえる。 Emacs でファイルを開いて BOM を確認する・表示させるのはやり方を見つけられなかった。 hexdump(1) でファイル先頭に? ef bb bf あるか見るのでももちろんよいが、普段からバイナリファイルのダンプを見慣れていないと見てもとっさに BOM つきであることがわからないので、一目見て明らかにおかしいとわかる

    BOM つき UTF-8 ファイルの作り方・確認方法・削除方法 - @kyanny's blog
    takaesu
    takaesu 2016/03/16
    UTF8のBOM付き、よくハマる。。lessかmoreでみればいいんだ
  • Ruby | BOM付きUTF-8のCSVファイルを出力してExcelで開けるようにする - Tbpgr Blog

    概要 BOM付きUTF-8CSVファイルを出力してExcelで開けるようにする 詳細 BOM付きUTF-8CSVファイルを出力してExcelで開けるようにします サンプル # encoding: utf-8 class File def self.insert_bom(input_filename, output_filename) src = File.read(input_filename) File.open(output_filename, "w:UTF-8") do |f| src = ' ' + src src.setbyte(0, 0xEF) src.setbyte(1, 0xBB) src.setbyte(2, 0xBF) f.print src end end end file = $*[0] exit unless File.exists? file File.in

    Ruby | BOM付きUTF-8のCSVファイルを出力してExcelで開けるようにする - Tbpgr Blog
  • XML用語事典 [BOM (Byte Order Mark)]

    BOM (Byte Order Mark) バイト・オーダー・マーク UnicodeのUTF-16などの16bit単位の文字エンコーディングスキームでは、8bit単位でデータを配列する際のエンディアンとして、ビッグエンディアンとリトルエンディアンの両方を許している。そのため、どちらのエンディアンで記述されたデータかを確実に判定するための特別なマークとなる符号として、BOM(Byte Order Mark)が用意されている。 またBOMは、あるテキストがUnicodeで記述されているかどうかを自動判定する手段として使用される場合もある。この目的に使用される場合は、エンディアンが存在するUTF-16だけでなく、エンディアンが存在しないUTF-8のテキストに付加される場合もある。 BOMは、必ずテキストの先頭に付加される。テキストの中間に置かれることはない。BOMの値は、U+ffefと定められて

  • UTF-8のBOMの削除でハマる

    cles::blog 平常心是道 blogs: cles::blog NP_cles() « bashで多重起動を防止する(その2) :: DoS 攻撃の判断基準を IPA が策定へ » 2010/11/29 UTF-8のBOMの削除でハマる  java  ruby  charset  regex 257 2へぇ XalanでXMLをXSL変換するプログラムを書いたら、そのうちの1つのXMLが下記のエラーを吐いて変換できなくてハマってしまいました。 Caused by: javax.xml.transform.TransformerException: com.sun.org.apache.xml.internal.utils.WrappedRuntimeException: An invalid XML character (Unicode: 0xfffe) was found in t

    UTF-8のBOMの削除でハマる
  • 1