[B! utf8] [2ページ] tarchanのブックマーク

tarchan id:tarchan

utf8に関するtarchanのブックマーク (23)

第4回　UTF-8の冗長なエンコード | gihyo.jp
今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1～4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U＋0000からU＋007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C（\⁠）⁠、0x2F（/）などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。表1　UTF-8でのビットパターン
tarchan 2009/05/13
charset

unicode

utf8
リンク
UTF-8 - Wikipedia
UTF-8（ユーティーエフはち、ユーティーエフエイト）はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位（1–4バイトの可変長）の文字符号化形式および文字符号化スキーム。正式名称は、ISO/IEC 10646では “UCS Transf ormation Format 8”、Unicodeでは “Unicode Transf ormation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。当初は、ベル研究所においてPlan
tarchan 2008/11/06
wikipedia

utf8

bom
リンク
UTF-8とルーン文字 - Plan9日記
Plan9の内部文字コードはUTF-8(Universal Character Set Transf ormation Format, 8 bits wide)である．UTF-8自体はWebの世界でマルチバイトを扱うエンコーディング方式としてデファクトになっているが，そもそもUTF-8はASCIIとの親和性を保ちつつ，ファイルシステムで安全にマルチバイト文字コードを扱うために，Ken Thompson氏らが考案したものだ(当初はUTF-2とかFSS-UTFと呼ばれており，X/Open Groupで標準化された)．Plan9はUTF-8を内部コードに採用した最初のシステムだろう． Plan9ではchar型はUTF-8になるが，1文字＝16ビットにエンコーディングされるRuneというデータ型も使われている．Runeはunsigned shortとして定義されているらしい．これってUCS-2なのか
tarchan 2008/10/07
encoding

utf8
リンク
前のページ 1 2

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx