タグ

2010年8月18日のブックマーク (2件)

  • ほぅほぅじょせつ : UTF-8とUTF-8Nの違いによるワナ

    2008年02月27日08:32 カテゴリ UTF-8UTF-8Nの違いによるワナ rubyを書いているのだが、結構意外なところではまって、時間を費やしてしまったのでメモしておく。 どうやらUTF-8にはUTF-8UTF-8Nの2種類がある。それらの違いは、UTF-8ではBOM(Byte Order Mark)と呼ばれる、エンディアンを判定するためのデータが先頭3バイトに書き込まれ、UTF-8Nでは書き込まれないというもの。 (追記20080401:コメントでご指摘をいただいたように、上の表記は適切ではありません。正しくは「UTF-8」では基的にBOMは付与されず、BOMが付与された場合に限り「UTF-8BOM」などの表記を与えて区別するべきであるようです。wikipadia「UTF-8」 来であればすべての表記を変更すべきですが、ここではTerePadがBOMつきのUTF-8を「

    raiga448
    raiga448 2010/08/18
    まさか、UTF-8に種類があるとは知りませんでした;
  • CMLog :: TeraPadでのUTF8の扱いの問題

    TeraPadでのUTF8の扱いの問題 前エントリの最後ではちゃんと表示されていたお二方 Bronisław Kasper Malinowski Émile Durkheim lにクレスカとかEにアクサンタギュとか個性的な文字をお使いです。 これらはJIS X 0212なのでUnicodeをはじめEUC-jpなどでも表現できるがShift_JISでは表現できないのです。 TeraPadはUTF8を扱えるので単に日語のUTF8のファイルは開けるのですがどうもこういった文字を表示できないようです。 2つ前のエントリで問題が形式・プログラムの入力/内部処理・フォントの3つ(細かくは4つ)に分けられると言いました。TeraPadは内部処理の段階で問題があるようです。 EmEditor ちなみに上のはフォントがMSゴシックですが愛用しているゆたぽんフォントではJIS X 0212を含んで

    raiga448
    raiga448 2010/08/18
    こんなおとし穴があったとは;最新版は大丈夫そうです。