タグ

utfとreadに関するkiyo_hikoのブックマーク (1)

  • JavaでUTF-8のBOMに対処する - 万象酔歩

    この記事は「 Javaでファイルオープン:文字コードや追加モードなど」の補助記事です。 JavaでBOM付きUTF-8ファイルを読む 媒体上の文字コード規格、UTF-8には、規格策定者の迷いのため 一時期、先頭に3バイトのBOMと呼ばれる、バイト並び識別マーク を置く仕様がありました。 現在はBOMはまず使われることはありませんが、Windows付属の「メモ帳」という 簡易エディタでUTF-8ファイルをうっかり作成してしまうと、ファイル先頭に BOMが付いてしまいます。 残念なことにJavaではBOM付きのUTF-8ファイルをまともに 読むことができません。 先頭がBOMの場合スキップする方法 対処法は色々考えられますが、ここでは、BufferedInputStreamを被せ、 先頭がBOMの場合スキップし、BOMでない場合先頭まで巻き戻す形を 示します。 import java.io.*

    JavaでUTF-8のBOMに対処する - 万象酔歩
    kiyo_hiko
    kiyo_hiko 2013/08/28
    「BOMはまず使われることはありません…メモ帳という 簡易エディタでUTF-8ファイルをうっかり作成してしまうと…BOMが付いてしまいます。残念なことにJavaではBOM付きのUTF-8ファイルをまともに 読むことができません」
  • 1