[B! charset] tm8rのブックマーク

tm8r id:tm8r

charsetに関するtm8rのブックマーク (3)

fudist - ダメ文字一覧表
文字化けや検索不可などの原因となる、Shift_JIS(cp932)の2byte目が正規表現などのメタキャラクタ(制御記号)と重なる文字一覧。扱う言語やシステムによって有効なメタキャラクタが異なるので、下の表に含まれていても全てがダメ文字というわけではありません。ただしバックスラッシュ(￥記号)の0x5c とパイプ文字( | 記号)の0x7cは多くのシステムで問題になるので注意する必要があります。解説と対策「Shift_JISのダメ文字」
tm8r 2010/07/24
charset
リンク
ISO-2022-JPを扱う際の注意 - blanket log
ISO-2022-JP(いわゆるJIS)で書かれたファイルから特定の文字列を検索する、というのはそれほど簡単な話ではありません。単純に部分一致するバイト列を探すだけではできないからです。 ISO-2022-JPという文字コードは、エスケープシーケンスによって文字セットを切り替えながら文字列を表現します。どういうことかというと、文字列の中で文字がASCIIから日本語に切り替わるときに、「ここから日本語」と宣言してから日本語を表すバイト列が続きます。逆に日本語からASCIIに切り替わるときに「ここからASCII」と言ってからASCIIの文字列が続きます。IMEで入力する文字を切り替える度に[半角/全角]キーを押すのと似たようなものです。つまり文字列の各部分において状態を持つのです。例えば「0x24 0x22」というバイト列は、ASCII状態では「$"」になりますが、日本語状態(JIS X
tm8r 2010/07/21
charset
リンク
UnicodeとUTF-8の違いは？ - Humanity
という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/
tm8r 2009/12/01
charset

unicode
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx