タグ

programmingとUnicodeに関するPSVのブックマーク (3)

  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
  • 第1回 UTF-7によるクロスサイトスクリプティング攻撃[前編] | gihyo.jp

    みなさん、はじめまして。はせがわようすけと申します。 最近、文字コードと関連したセキュリティの話題を目にすることが増えてきました。文字コードを利用した攻撃は技術的に未開拓ということもあり、参考となる情報がなかなか見当たりません。この連載では、文字コードを利用した攻撃やそれに対する対策について正しい知識を解説していきます。 文字コードとセキュリティが関連するもっとも大きな点は、やはり文字列の比較でしょう。「⁠危険な文字列の検出」「⁠安全な文字列であることの確認」といった文字列の比較は、セキュリティを考えるうえで避けて通れない処理だと思います。 文字列の比較においては、単純にバイト列を比較するだけでは不十分で、文字列がメモリ上でどのようなバイト列として格納されているのか(このルールを符号化方式あるいは文字エンコーディングと言います)に注意しなければならないこともあるでしょう。攻撃者は巧みに文字

    第1回 UTF-7によるクロスサイトスクリプティング攻撃[前編] | gihyo.jp
  • ミラクル・リナックス:Samba 国際化プロジェクト > iconvについて

    オープンソースソフトウェアおよびフリーソフトウェアにおいてもソフトウェアの 国際化対応を行うために文字列処理の際に UCS(Unicode) を使う事が多くなってき ています。 UCS を用いる主な理由としては、各国のエンコーディングを考慮したコードを書か なくてもプログラム内部では UCS で処理して入出力の際にエンコーディング変換 を行えば良いという考えがあるようです。 UCS と各エンコーディングの変換を行う関数として iconv() がありますが、オー プンソースソフトウェアやフリーソフトウェアで利用されている libiconv や glibc2 での iconv() の実装では日語での利用が実用にならないという問題があ ります。 この問題に対して各ソフトウェアの日のコミュニティーが個別に対応していると いうのが現状で、必ずしも包括的な解決策がとられているわけではありません。

    PSV
    PSV 2006/09/10
    libiconv/glibc の問題点・libiconv/glibc パッチの内容
  • 1