タグ

文字コードに関するalreschaのブックマーク (7)

  • UTF8 フラグあれこれ - daily dayflower

    UTF8 フラグについてわかってるつもりだったんですが,utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめ スカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがある スカラー変数は(リファレンス等は別として)下記のものを格納できる (A) 文字列(内部表象: UTF-8) (B) 文字列(内部表象: ISO-8859-1) (C) バイナリ列 純粋なバイナリストリーム(画像ファイル等)かもしれないし, UTF-8 octet stream かもしれないし, CP932 octet stream かもしれないし,etc, etc ... Perl は(後方互換性確保などの理由から)ISO-8859-1

    UTF8 フラグあれこれ - daily dayflower
  • LeopardにおけるJIS X 0213:2004(2004JIS)対応 - もじのなまえ

    それはともかく、iBookにLeopardをインストールしたので、取り急ぎ2004JIS対応についてお伝えしたい。とにかくインストールしたばかりなので、まだ十分には確認できない事情はご了解されたい。 ヒラギノフォントは90JIS対応の「Pro」と、2004JIS対応の「ProN」の両方がインストールされる(ただし角ゴW8 Stdに対してはStdN)。 PagesやKeynote、Numbers、iPhoto等のアップル純正アプリで、デフォルトフォントがProNになるということは、今のところ確認できていない。上書きインストールをしたのだが、この場合インストール前の設定が保存される。これらのアプリのうちKeynote、Numbersはインストール後Leopardで初めて起動したのだが、デフォルトフォントはProNにはなっていなかった。 上が事実であるとすれば、かつてのマイクロソフトがとった方法

    LeopardにおけるJIS X 0213:2004(2004JIS)対応 - もじのなまえ
    alrescha
    alrescha 2007/10/29
    コメント欄
  • Emacs22 UTF-8 における文脈依存な文字幅の問題について

    UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、 矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。 下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。 文字によって幅を変えるプロポーショナルフォントを前提としたテキストであれば あまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは 表示がガタガタになってしまい問題になります。 これらの文字を wide character として判別させるには以下の設定を

  • VistaをXPの字体に戻すというjp90タグの罠

    JIS C 6226が最初に制定されたのは1978年。6802字を収録した漢字コードとして制定され,規格票の例示字体は写研の石井明朝体で印刷された。ところがJIS C 6226は,1983年に改正された際,漢字300字の字体を変更した。この改正で「同じ文字コードでも違う字が表示されてしまう」という現象が頻繁に起こった。いわゆる「83JIS改正の悪夢」だ。 さらにJIS C 6226は,1987年にJIS X 0208という名前に変わっているが,このときには規格そのものの変更は一切おこなわれていない。次の1990年の改正では,規格票例示字体を平成明朝体に変えたので,1983年版とは微妙に字体が変わってしまった。これに懲りて,1997年の改正では,規格票例示字体は一切いじることなく,字数も全く変更せず,あくまで規格そのものの明確化につとめた。 一方,1990年にはJIS X 0212(補助漢字

    VistaをXPの字体に戻すというjp90タグの罠
  • PHPの文字化けを本気で解決する - ぎじゅっやさん

  • Vistaで化ける字,化けない字

    11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで,“文字化け”が起こるらしい。文字化けといっても,Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく,その多くは似た文字が表示される程度である。ここでは,来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは,Windows 98日語版の発売以来,Windows 2000,Windows Me,Windows XPまでCP932(名はWindows Codepage 932,いわゆるMS漢字コード)とJIS X 0212をサポートしてきたが,最新のWindows VistaではJIS X 0213に乗り換えた。いや,乗り換えたというのは,ちょっと語弊がある。CP932とJIS X 0212に加えて,JIS X 0213もサ

    Vistaで化ける字,化けない字
  • それ Unicode で

    UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。

  • 1