タグ

encodingに関するtakanori_isのブックマーク (2)

  • JISコードとESCシーケンス

    JISコードとASCIIコードの対応関係を把握すると、文字化けの理屈(?)が少し分かりやすくなります。代表的な例をとりあげて、文字化けの解読法を探ります。 ※文字化けと文字コードの関連を詳しく解説した『プロフェッショナル電子メール』を上梓しました。 JISコードとASCII ESCの抜け落ちたJISコード なぜか8ビット目が追加された場合 部分的な欠落 解読の行き過ぎ JISとASCIIの対応表 JISコードとASCII 「日語と文字コード」や「インターネット上でのJISメールについて」で述べたように、JISコードによる日語メールのやりとりは、[ESC]文字と$Bや(Bなどの文字を組み合わせた「エスケープシーケンス」で、文字セットを切り替えています。この[ESC]文字が抜け落ちるのが、文字化けの原因の一つでした。 JISコードはASCIIコードと同じビットパターン(1と0の組み合わせ)

  • 404 Blog Not Found:perl - utf8::is_utf8("\x{ff}") == 0

    2008年02月18日10:00 カテゴリLightweight Languages perl - utf8::is_utf8("\x{ff}") == 0 ちょうどいい機会なので、Perl 5.8以降におけるutf8フラグの立ち方を。 unknownplace.org - 2008/02/17 - utf8::is_utf8 ということで、"\x{6751}\x{702c}\x{5927}\x{8f14}" などというData::Dumper表記でかならずしも utf-8フラグがたつわけじゃない。ということがいいたかったんだと思うのだけれど、 \x{UUUUUU}とutf8 flag まずはクイズです。以下がどう出力されるかを答えなさい。 sub pfrag{ print utf8::is_utf8($_[0]) ? 1 : 0, "\n" } pfrag "Hell\xC3, worl

    404 Blog Not Found:perl - utf8::is_utf8("\x{ff}") == 0
  • 1