タグ

unicodeに関するasuka0801のブックマーク (2)

  • 第6回■異なる文字集合への変換がぜい弱性につながる

    文字集合自体は抽象的な「文字の集まり」に過ぎないので単独で問題になることはないが,異なる文字集合に変換する際には問題が発生する場合がある。文字集合が異なるということは,対応する文字が1対1対応していないので,変換先の文字集合で対応する文字がないケースや,多対1の対応が発生する可能性がある。 図1に,Unicodeからマイクロソフト標準キャラクタセットに変換する場合を例示した。マイクロソフト標準キャラクタセットには「骶」(尾てい骨の“てい”)や,ハングルなどはない。また,バックスラッシュ「\」(U+005C)と円記号「\」(U+00A5)がともにJIS X 0201の「\」(0x5C)に変換される場合について示している。 「漢」のように1対1対応している文字は問題ない。ハングルや「骶」のように対応するコードポイントがない場合はエラーになるか文字化けする。インターネットで「尾 骨 びていこつ」

    第6回■異なる文字集合への変換がぜい弱性につながる
    asuka0801
    asuka0801 2013/05/12
    内部的に文字コードの異なる文字列を扱うシステムを使う事への危険性はここら辺見ると分かりやすいかな
  • Unicodeチャート・インデックス

    unicodeのコードチャート、あるいはコード一覧表です。文字は図形でなくUTF-8コードで表現しているので表示はブラウザに依存します。文字ごとにSJISコードがあるかどうかで色分けしています。

    asuka0801
    asuka0801 2013/04/10
    9条支持と中身が全く関係ない件
  • 1