タグ

utf8に関するtarchanのブックマーク (23)

  • 第4回 UTF-8の冗長なエンコード | gihyo.jp

    今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1~4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U+0000からU+007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C(\⁠)⁠、0x2F(/)などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。 表1 UTF-8でのビットパターン

    第4回 UTF-8の冗長なエンコード | gihyo.jp
  • UTF-8 - Wikipedia

    UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1–4バイトの可変長)の文字符号化形式および文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPlan

  • UTF-8とルーン文字 - Plan9日記

    Plan9の内部文字コードはUTF-8(Universal Character Set Transformation Format, 8 bits wide)である.UTF-8自体はWebの世界でマルチバイトを扱うエンコーディング方式としてデファクトになっているが,そもそもUTF-8はASCIIとの親和性を保ちつつ,ファイルシステムで安全にマルチバイト文字コードを扱うために,Ken Thompson氏らが考案したものだ(当初はUTF-2とかFSS-UTFと呼ばれており,X/Open Groupで標準化された).Plan9はUTF-8を内部コードに採用した最初のシステムだろう. Plan9ではchar型はUTF-8になるが,1文字=16ビットにエンコーディングされるRuneというデータ型も使われている.Runeはunsigned shortとして定義されているらしい.これってUCS-2なのか

    UTF-8とルーン文字 - Plan9日記