文字化けや検索不可などの原因となる、Shift_JIS(cp932)の2byte目が正規表現などのメタキャラクタ(制御記号)と重なる文字一覧。 扱う言語やシステムによって有効なメタキャラクタが異なるので、下の表に含まれていても全てがダメ文字というわけではありません。 ただしバックスラッシュ(¥記号)の0x5c と パイプ文字( | 記号)の0x7cは多くのシステムで問題になるので注意する必要があります。 解説と対策「Shift_JISのダメ文字」
文字化けや検索不可などの原因となる、Shift_JIS(cp932)の2byte目が正規表現などのメタキャラクタ(制御記号)と重なる文字一覧。 扱う言語やシステムによって有効なメタキャラクタが異なるので、下の表に含まれていても全てがダメ文字というわけではありません。 ただしバックスラッシュ(¥記号)の0x5c と パイプ文字( | 記号)の0x7cは多くのシステムで問題になるので注意する必要があります。 解説と対策「Shift_JISのダメ文字」
ISO-2022-JP(いわゆるJIS)で書かれたファイルから特定の文字列を検索する、というのはそれほど簡単な話ではありません。単純に部分一致するバイト列を探すだけではできないからです。 ISO-2022-JPという文字コードは、エスケープシーケンスによって文字セットを切り替えながら文字列を表現します。 どういうことかというと、文字列の中で文字がASCIIから日本語に切り替わるときに、「ここから日本語」と宣言してから日本語を表すバイト列が続きます。逆に日本語からASCIIに切り替わるときに「ここからASCII」と言ってからASCIIの文字列が続きます。IMEで入力する文字を切り替える度に[半角/全角]キーを押すのと似たようなものです。 つまり文字列の各部分において状態を持つのです。 例えば「0x24 0x22」というバイト列は、ASCII状態では「$"」になりますが、日本語状態(JIS X
という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く