タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

unicodeに関するfixmeのブックマーク (2)

  • 脳みそプリン: U+FFFD (REPLACEMENT CHARACTER) は便利

    2008年6月11日 U+FFFD (REPLACEMENT CHARACTER) は便利 UnicodeにはU+FFFD (REPLACEMENT CHARACTER �) という便利な特殊文字があります。 Unicode 5.1では次のように定義されています: used to replace an incoming character whose value is unknown or unrepresentable in Unicodeこの文字を使うことで、従来悩まされてきた、いわゆる「文字化け」の問題に対抗することができます。 れっきとしたUnicode文字なので、XMLドキュメントで使用可能うまく扱えない文字であったことを、クライアントに意思表示することができるブラウザでもレンダリング可能Perl 5.8以降でのEncode.pmでは、decodeできなかった文字をデフォルトでU

    fixme
    fixme 2013/05/14
    core\html\parser\InputStreamPreprocessor.h
  • 第4回 UTF-8の冗長なエンコード | gihyo.jp

    今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1~4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U+0000からU+007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C(\⁠)⁠、0x2F(/)などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。 表1 UTF-8でのビットパターン

    第4回 UTF-8の冗長なエンコード | gihyo.jp
  • 1