タグ

文字コードに関するkaito834のブックマーク (5)

  • XML用語事典 [BOM (Byte Order Mark)]

    BOM (Byte Order Mark) バイト・オーダー・マーク UnicodeのUTF-16などの16bit単位の文字エンコーディングスキームでは、8bit単位でデータを配列する際のエンディアンとして、ビッグエンディアンとリトルエンディアンの両方を許している。そのため、どちらのエンディアンで記述されたデータかを確実に判定するための特別なマークとなる符号として、BOM(Byte Order Mark)が用意されている。 またBOMは、あるテキストがUnicodeで記述されているかどうかを自動判定する手段として使用される場合もある。この目的に使用される場合は、エンディアンが存在するUTF-16だけでなく、エンディアンが存在しないUTF-8のテキストに付加される場合もある。 BOMは、必ずテキストの先頭に付加される。テキストの中間に置かれることはない。BOMの値は、U+ffefと定められて

    kaito834
    kaito834 2012/02/07
    「どちらのエンディアンで記述されたデータかを確実に判定するための特別なマークとなる符号として、BOM(Byte Order Mark)...」
  • 第4回 UTF-8の冗長なエンコード | gihyo.jp

    今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1~4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U+0000からU+007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C(\⁠)⁠、0x2F(/)などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。 表1 UTF-8でのビットパターン

    第4回 UTF-8の冗長なエンコード | gihyo.jp
    kaito834
    kaito834 2010/12/18
    UTF-8 の冗長なエンコードにおけるセキュリティ上の問題点。Nimda ワームがこういった脆弱性を悪用したこと、CVE-2008-2938 を覚えておこう。はてぶのコメントも参考になる。
  • https://www.ietf.org/rfc/rfc1468.txt

    kaito834
    kaito834 2010/07/11
    メール等で使用される iso-2022-jp を定めている RFC。あわせて読みたい。「文字コード超研究」 p.379- 「第15章 ISO-2022-JP」
  • 「半角カタカナを入力しないで下さい」は失格?!

    まず、この「半角カタカナ」という名称について考えてみます。半角カタカナというのは、正確な表現できないというのをご存知でしょうか? 「全角」に対して「半角」があるわけですが、これはフォントに依存します。こちらに違いがよく分かるような比較表を作成しました。この比較表を見ていただければ分かりますが、「MS UI Gothic」や「MS P明朝」のようなプロポーショナルフォントでは、半角カタカナでは全角カタカナの半分の幅ではありません。強いて言えば、「MS UI Gothic」で約80%カタカナ、「MS P明朝」で約70%カタカナになります。 また、いわゆる半角カタカナは1バイトカタカナという場合があります。確かにShift_JISでは1バイトなのですが、EUC-JPでは8Eという制御文字が1バイト名について2バイトになります。ですので、1バイトカタカナという名称も、厳密に言えば正しくありません。

    kaito834
    kaito834 2010/07/11
    「半角カタカナはJIS及びUnicodeでも定義されており、...どこかのベンダーが勝手に決めた機種依存文字などではありません」「このISO-2022-JPが半角カタカナを除外していることが、メールでは使えないとされている根拠...」
  • character-sets

    Last Updated 2022-07-14 Available Formats XML HTML Plain text Registry included below Character Sets Registration Procedure(s) Expert Review Expert(s) Martin Dürst Reference [RFC2978] Note These are the official names for character sets that may be used in the Internet and may be referred to in Internet documentation. These names are expressed in ANSI_X3.4-1968 which is commonly called US-ASCII or

    kaito834
    kaito834 2010/07/11
    IANAがまとめている文字集合(Character Sets)の正式名称。文字コードの正式名称を確認したい場合はここを参照することとする。間違いやすいのは、EUC-JPとShift_JISの「-」と「_」の違い。
  • 1