文字コードに関するyasuwiのブックマーク (4)

  • UTF-8 エンコーディングの危険性 - WebOS Goodies

    的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。 例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです(昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ

  • Unicode (utf-8 encoded) Testpage

    0x0000: 0x0010: 0x0020: !"#$&'()*+,-./ 0x0030: 0123456789:;<=>? 0x0040: @ABCDEFGHIJKLMNO 0x0050: PQRSTUVWXYZ[\]^_ 0x0060: `abcdefghijklmno 0x0070: pqrstuvwxyz{|}~� 0x0080: 0x0090: 0x00a0:  ¡¢£¤¥¦§¨©ª«¬­®¯ 0x00b0: °±²³´µ¶·¸¹º»¼½¾¿ 0x00c0: ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ 0x00d0: ÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞß 0x00e0: àáâãäåæçèéêëìíîï 0x00f0: ðñòóôõö÷øùúûüýþÿ 0x0100: ĀāĂ㥹ĆćĈĉĊċČčĎď 0x0110: ĐđĒēĔĕĖėĘęĚěĜĝĞğ 0x0120: ĠġĢģĤĥĦħĨĩĪī

    yasuwi
    yasuwi 2006/09/27
    UTF-8のキャラクタ一覧
  • いわゆる機種依存文字とUTF-8

    ※ 「①」から「⑮」までの丸付き数字など一部の文字は正しく表示されます。 この一覧表を見ても分かりますように、文字化けするのはMacOS 9.2.2におけるNetscape4.7の場合及びMacOSXにおけるmozilla系ブラウザ(Firefox、Netscape、Mozilla)けでした※。なぜ、他のブラウザで文字化けしなかったかというと、このページはShift_JISではなく、UTF-8で書かれているからです。Shift_JISでは、漢字一文字を現すのに2バイトを使いますが、UTF-8では3バイト使用します。Shift_JISの「あ」は「0x82 A0」(「0x」とはその後に続く文字列が16進数であることを示しています)ですが、「0xE3 81 82」です。Shift_JISで扱える文字量とは比べ物にならない量の文字を同時に使うことが可能です。ですから、このNEC特殊文字 13区の文

    yasuwi
    yasuwi 2006/09/27
    UTF-8とフォントの指定を行えば機種依存文字もなんのその。
  • JIS X 0208 の文字コード表

    JIS X 0208 の文字コード表です。 JIS X 0208 文字コード表 01区~08区 各種記号、英数字、かな 09区~15区 未定義(機種依存) (13区 NEC拡張外字) 16区~47区 JIS第一水準漢字 48区~84区 JIS第二水準漢字 85区~94区 未定義(機種依存) (89区~92区 NEC拡張外字) JIS コードの場合、エスケープシーケンスは、表示していません。 このページは、以下のページにあるPerl スクリプトにより自動作成しています。 ASHのプログラムソース ●JIS漢字 JIS SJIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 01区 2120 813F A1A0   、 。 , . ・ : ; ? ! ゛ ゜ ´ ` ¨ 01区 2130 814F A1B0 ^  ̄ _ ヽ ヾ ゝ ゞ

    yasuwi
    yasuwi 2006/08/31
    JIS,Shift_JIS,EUC-JP
  • 1