タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

charsetに関するtm8rのブックマーク (3)

  • fudist - ダメ文字一覧表

    文字化けや検索不可などの原因となる、Shift_JIS(cp932)の2byte目が正規表現などのメタキャラクタ(制御記号)と重なる文字一覧。 扱う言語やシステムによって有効なメタキャラクタが異なるので、下の表に含まれていても全てがダメ文字というわけではありません。 ただしバックスラッシュ(¥記号)の0x5c と パイプ文字( | 記号)の0x7cは多くのシステムで問題になるので注意する必要があります。 解説と対策「Shift_JISのダメ文字」

    tm8r
    tm8r 2010/07/24
  • ISO-2022-JPを扱う際の注意 - blanket log

    ISO-2022-JP(いわゆるJIS)で書かれたファイルから特定の文字列を検索する、というのはそれほど簡単な話ではありません。単純に部分一致するバイト列を探すだけではできないからです。 ISO-2022-JPという文字コードは、エスケープシーケンスによって文字セットを切り替えながら文字列を表現します。 どういうことかというと、文字列の中で文字がASCIIから日語に切り替わるときに、「ここから日語」と宣言してから日語を表すバイト列が続きます。逆に日語からASCIIに切り替わるときに「ここからASCII」と言ってからASCIIの文字列が続きます。IMEで入力する文字を切り替える度に[半角/全角]キーを押すのと似たようなものです。 つまり文字列の各部分において状態を持つのです。 例えば「0x24 0x22」というバイト列は、ASCII状態では「$"」になりますが、日語状態(JIS X

    ISO-2022-JPを扱う際の注意 - blanket log
    tm8r
    tm8r 2010/07/21
  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • 1