タグ

2007年12月30日のブックマーク (3件)

  • JIS X 0213:2004(JIS2004) で本当に文字化けする文字

    とします。Perl で文字コードを操作する方法は、Encode.pm と旧Jcode.pm (0.8系)がメジャーどころなので、その2つについて調査しました。Encode.pm に関しては、Encode::JP と Encode::JIS2K を対象としました。 まず結論から。Encode::JIS2K を使う限り、文字化けする SJIS コードは以下の35文字です。 JIS2004 で追加された10文字:879F 889E 9873 989E EAA5 EFF8 EFF9 EFFA EFFB EFFC カ行に半濁音(゜)を付けた文字など一部の文字: 82f5 82f6 82f7 82f8 82f9 8397 8398 8399 839a 839b 839c 839d 839e 83f6 8663 8667 8668 8669 866a 866b 866c 866d 866e 8685 8

    potappo
    potappo 2007/12/30
    「SJIS - EUC - UTF8 を相互変換する過程において元の文字コードに戻したときに元のコードに戻ってこない文字」について検証した記事。Encode::JIS2K というモジュールがある。
  • Vistaで化ける字,化けない字(続報)

    前報で述べた通り,マイクロソフトのWindows Vistaでは,文字コードにUnicodeを使いながら,Unicodeとは異なる文字コード規格のJIS X 0213をサポートする,という方式を取っている。というのも,Windows 98日語版以降ずっとサポートしてきたCP932(名はWindows Codepage 932,いわゆるMS 漢字コード)やJIS X 0212を捨てるわけにはいかないので,CP932もJIS X 0212もJIS X 0213もみんなまとめてUnicodeで扱う,というやり方を取らざるをえないのである。 前報では,JIS X 0213の第一水準~第三水準漢字7614字について,Vistaで新たに採用された日フォントセットであるメイリオとXP以前のMSゴシックを見比べ,7614字のうち325字*が,VistaとXP以前との間で文字化けする(ここでは来表

    Vistaで化ける字,化けない字(続報)
    potappo
    potappo 2007/12/30
    字形が化ける文字について検証した記事。第四水準漢字2436字と非漢字1183字。
  • Vistaで化ける字,化けない字

    11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで,“文字化け”が起こるらしい。文字化けといっても,Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく,その多くは似た文字が表示される程度である。ここでは,来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは,Windows 98日語版の発売以来,Windows 2000,Windows Me,Windows XPまでCP932(名はWindows Codepage 932,いわゆるMS漢字コード)とJIS X 0212をサポートしてきたが,最新のWindows VistaではJIS X 0213に乗り換えた。いや,乗り換えたというのは,ちょっと語弊がある。CP932とJIS X 0212に加えて,JIS X 0213もサ

    Vistaで化ける字,化けない字
    potappo
    potappo 2007/12/30
    字形が化ける漢字がどれだけあるか検証した記事。