Q. UTF-8 の冗長性問題は、設計上の問題なのか? - kazuhoのメモ置き場 UTF-8 は、逆方向へのスキャンが可能、バイナリ比較の結果が UCS と同じ、といった特徴をもつ一方、冗長なエンコーディングが可能という欠点をもっている。では、前者の特徴を活かしたまま... 続きを読む
PHPのmb_check_encoding関数の調査、おそらく今回が最終回です。今回はUTF-8について調べてみました。 UTF-8UTF-8というのはUnicodeのエンコーディング形式の一つです。本当にざっくり言ってしまうと、ASCIIが1バイト、ヨーロッパ圏の文字が2バイト、漢字などが... 続きを読む
UTF-8はWikipediaに書かれている通り、当初は、Plan 9で用いるエンコードとしてベル研究所で考案された。ものだけど、最近古本屋で見つけた「インターネットヒストリー」の村井純先生のあとがきに気になる記述があった。ちょっと長くなるけど引用する。かなり昔... 続きを読む
かつて IIS に存在した脆弱性で、「Unicodeバグ」とも呼ばれます。これは、冗長な符号化がなされた UTF-8 の文字列を含む URL によって、本来アクセスできてはならないものにアクセスできてしまうという Path Traversal の問題です。Microsoft はこの問題を MS0... 続きを読む
= Ruby M17N : subtitle RubyKaigi2008版 == おしながき * 概念 * Rubyの場合 * 変換 * 質問 # ぎゃっという変更の数々を紹介したいと思います。 == Ruby M17N の特徴 * CSI 方式を採用 * 独自の変換モジュール # Ruby の多言語化にはいくつか他と異なる特徴が... 続きを読む
(Editorial: Don't frontpage this post, editors. I write it down here to summarize my thought, wanting to get feedbacks from my trusted readers and NOT flame wars or another giant thread of utf-8 flag woes)I can finally say I fully grok Unicod... 続きを読む
perl, memoUTF8 フラグについてわかってるつもりだったんですが, utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめスカラー変数の内部表象の... 続きを読む
■ utf8::is_utf8 considered harmful 14:28 unknownplace.org - 2008/02/17 404 Blog Not Found:perl - utf8::is_utf8("¥x{ff}") == 0 弾さんの書いてるのはもちろん間違いではないのだが、ちょっと今回はなしていたのとはポイントが違っていて、 なぜこうな... 続きを読む
[Perl] XML::TreePP モジュール writefile 時の文字化け【解決】 << 作成日時 : 2007/09/26 04:53 >> トラックバック 0 / コメント 1 XML::TreePP モジュールで、Perl オブジェクト→XML ファイル出力を行う writefile() メソッドで文字化けが発生していました... 続きを読む
うーん、これ、かなり5.8 portersの想定の範囲外の使われ方だったのですね。 Time to ditch encoding.pm: blog.bulknews.netPerl でソースコードにマルチバイトなリテラルを埋め込む場合には encoding プラグマを使うのが定石でしたが、 元々、encodingプラグマ... 続きを読む
Re: perl - use utf8; 404 Blog Not Found:perl - use utf8;ちなみに、utf8 pragmaの配下では、リテラルだけではなくシンボル名にもUnicodeを使うことが出来る。 (コード略) Enjoy! Dan the Just Another PerlUnicode Hacker ぼくだったらこう書きます><#!/us... 続きを読む