タグ

unicodeに関するsakura3942のブックマーク (5)

  • README.UNICODEの要約 - Do You PHP はてブロ

    PHP6からネイティブUnicodeサポートが始まるわけですが、実のところ、どういうものなのかよく分からなかったりします;-) で、ソースに付属するREADME.UNICODE(リビジョン1.8)を要約してみました。 README.UNICODE 間違いがあれば指摘をお願いします。 内部はUTF-16 ICUを利用する ICUでサポートされているエンコーディングが利用可能 文字リテラル、HTTPリクエスト、PHP識別子は全てUnicode unicode.semantics = On/OffでUnicodeサポートを切り替える Offの場合、文字リテラルはバイナリ扱い fallback encodingを指定しない場合、UTF-8となる unicode.runtime_encodingでバイナリ文字列変換のエンコーディングを指定 キャスト (binary):バイナリ文字列 (unicode

    README.UNICODEの要約 - Do You PHP はてブロ
    sakura3942
    sakura3942 2007/09/11
    php6のネイティブUnicodeサポートについて
  • 葉っぱ日記 - レジストリの HKCR¥MIME¥Database¥charset 以下に定義されています。

    UTF-7を利用したXSSは、charset が指定されていない場合に発生すると考えられていますが、少なくとも Internet Explorer においては、これは大きな間違いです。正しくは、Internet Explorer が認識できる charset が指定されていない場合であり、charsetが付加されていても、IEが認識できない文字エンコーディング名である場合にはXSSが発生します。 例えば、次のような HTML は(HTTPレスポンスヘッダで charset が明示されていない場合)IEが文字エンコーディング名を正しく認識できないため、その内容からUTF-7と解釈されるためにスクリプトが動作します。"utf8"という表記はUTF-8の慣用的な表現ではありますが、ハイフンが抜けており正しい表記ではありません。 <html> <head> <meta http-equiv="Co

    葉っぱ日記 - レジストリの HKCR¥MIME¥Database¥charset 以下に定義されています。
  • Perl Tips: MySQL で、latin1_swedish_ci を utf8_general_ci に変換する方法

    MySQL 4.0 と 4.1 では、文字コードの扱いの仕様が変わったらしい。特に 4.0 で日語を扱っていて、4.1 にアップグレードしたいときには文字化けという非常にややこしい状況が生まれているようだ。 さて、レンタルサーバなどのホスティングプロバイダが勝手に MySQL 4.0 から 4.1 にアップグレードしたりすると、特に海外のレンタルサーバでは日語のことなんかこれっぽっちも考えてくれてはいないため、私のケースではなぜか文字コードがすべて latin1_swedish_ci となっていた。同じ latin1 の中でも latin1_swedish_ci となるらしいのだ。 ゆえにこれを utf8 に変換したい。1レコードずつ変換するのだろうか?などと恐ろしい考えが一瞬頭をよぎったのだが、調べていくうちに以下の手順を踏めばよいことがわかった。 その答えはズバリ MySQL 4.

  • エンコードマニアックス - 各種エンコードやハッシュを一発作成

    SHA-256 e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855 SHA-384 38b060a751ac96384cd9327eb1b1e36a21fdb71114be07434c0cc7bf63f6e1da274edebfe76f65fbd51ad2f14898b95b SHA-512 cf83e1357eefb8bdf1542850d66d8007d620e4050b5715dc83f4a921d36ce9ce47d0d13c5d85f2b0ff8318d2877eec2f63b931bd47417a81a538327af927da3e

  • それ Unicode で

    UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。

  • 1