タグ

utf8に関するwestlifeのブックマーク (2)

  • Unicodeエスケープシーケンス変換ツール

    Unicodeエスケープシーケンス変換ツールを公開します。 1.Unicodeエスケープシーケンスとは 「Unicodeエスケープシーケンス」とは、Unicodeの文字を表すためのもので、6つのASCII文字で構成されます。 「6つのASCII文字」は、具体的には「\u(または\U)」という2文字と、その後に続く4桁の16進数で構成され、これで1つのUnicode文字を表します。 例えば、「あ」という文字はUnicodeエスケープシーケンスで「\u3042」と表現されます。 2.Unicodeエスケープシーケンス変換ツール ということで、Unicodeエスケープシーケンス変換ツールを作ってみました。 上のテキストエリアに元の文字を入力して「エスケープ」をクリックすれば、下のテキストエリアにUnicodeエスケープシーケンスが表示されます。 また、下のテキストエリアにUnicodeエスケープ

  • UTF-8 エンコーディングの危険性 - WebOS Goodies

    的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。 例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです(昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ

  • 1