タグ

ブックマーク / moji-memo.hatenablog.jp (6)

  • CJK統合漢字拡張Fがヤバイ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    がCJK統合漢字拡張F1/F2に提案している文字には、すでにUCSに入っている漢字と見分けがつかない例がいくつもある。これらは、提案書*1に「Similar and Variation」として既存の文字の符号位置が記載されているものの一部であり、つまり、似ている漢字の存在は百も承知で提案しているわけだ。 以下、そのような例を拾ってみた。左右に並べた文字のうち「UCS」欄に符号位置が入っているほうが、既存のもの。個々の文字について述べることはしないが、要するに「別字の衝突であれば、形が同じでも別の符号を与える」ということだろう。 だが、ちょっと待ってほしい。それって実はものすごく根的な方針転換じゃないですか? 「機」の簡体字の「机」も「つくえ」の「机」も、形が同じである以上、同じ符号位置(U+673A)に包摂・統合するというのがCJK統合漢字の大原則であったはず*2。ここでいきなりそれ

    CJK統合漢字拡張Fがヤバイ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    dpprkng
    dpprkng 2013/11/06
  • iPhone間の新しい文字化け「兄化け」 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    iPhone間の新しい文字化けパターンが発見されたのでメモ*1。この少なくとも3つのダメな仕様が重なって発生する文字化けは、発見者によって「兄化け」と命名された*2。 「兄化け」は、兄がSoftBankまたはauのiPhoneでメッセージアプリを、妹がiPhoneのメールアプリでdocomo.ne.jpアドレスを使っている場合に発生する。兄が絵文字入りのメールを送信すると、妹の環境では絵文字が豆腐に化け、それを引用して返信すると、今度は兄の側でメッセージ全文が化ける。 以下、この文字化けの理屈について。兄のメッセージアプリは、絵文字入りのメッセージをUTF-8で送信。キャリアの送信側のサーバが、これをドコモのShift_JISに変換する。しかし、妹のiPhoneのメールアプリはドコモのShift_JISに対応していないので、ドコモの絵文字を単に「Shift_JISの未定義領域の文字」として

    iPhone間の新しい文字化け「兄化け」 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    dpprkng
    dpprkng 2013/10/22
  • IVSアドインをインストールしてみたよ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    「Unicode IVS Add-in for Microsoft Office」(http://ivsaddin.codeplex.com)をインストールしてみた。環境は、Vista + Office 2007*1。インストール後、用意されているサンプルファイルをWordで開いてみると、最初はアドインなしの環境と変らない表示だったが、カーソルがぶるぶる震えながら、徐々に異体字に置き換わっていった。 これらの異体字は、アドインが生成した外字フォントのPUA(私用領域)に割り当てられている。オリジナルのフォント(この例ではipamjm.ttf)をまるごと(すべてのグリフデータを含めて)コピーして外字フォントIPAmjMincho_EUDC.ttf)を作り、符号位置とグリフの対応表(cmap)を一度白紙にした上で、PUAの符号位置とGID(グリフID)の対応を順次追加しているかんじ。 PUA

    IVSアドインをインストールしてみたよ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    dpprkng
    dpprkng 2012/11/21
  • OS X 10.8.2のMail.appで新種の文字化け - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    この項10月5日追記。OS X v10.8.2追加アップデート1.0により、次項以下で言及している文の文字化けは解消された(ローマ数字の「Ⅴ」が「㈸」に化けるのは仕様なので従来どおり)。アップデート後に受信したメッセージについては、文・件名ともに化けない。ただし、受信済みのメッセージについては、アップデート後に文の文字化けは直ったが、件名の文字化けは直らなかった(下図)*1。 OS X 10.8.2のMail.appでは、Windows外字入りのISO-2022-JPを受信すると、メッセージ全体が化けることがある*2。たぶん、下図ピンク地の文字が1つでも含まれていると、メッセージ全体が(まるでソースを表示しているように)化ける。 下図は、Thunderbirdから文に「ローマ数字のⅤ」「ローマ数字のⅥ」と書いたメールを送信し、OS X 10.8.2のMail.appで受信・表示した

    OS X 10.8.2のMail.appで新種の文字化け - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    dpprkng
    dpprkng 2012/10/03
  • 「●」が小さく見えることがあるのはどうして? - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    (ホー先生)Macの画面で「●▲■」の「●」と「■」だけが小さく見えることがあるのはなぜじゃ*1。 「●」と「■」が欧文フォントで表示されているからだよ。たとえばMacのFinderでは、ファイル名は「Lucida Grande優先」で表示される。Lucida Grandeは「●(U+25CF)」や「■(U+25A0)」のグリフを持っているけれど、「▲(U+25B2)」のグリフを持っていない。だから「▲」はヒラギノで表示されて、「●」と「■」だけが小さく見えるんだ。同じ理由で起きる現象としては、三点リーダの位置が下にズレたりすることも、よくあるよね。 Finder以外でもよくあるんじゃが。 Appleのソフトは世界共通の仕様なので、デフォルトは欧文フォントだよ(下図)。 日フォントを指定すれば、この問題は避けられるのか。 うん。Finderでは基的にフォントの変更はできないけどね。そ

    「●」が小さく見えることがあるのはどうして? - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    dpprkng
    dpprkng 2011/04/18
  • なぜ円記号はメールで化けるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    多くのMacユーザはもうすっかり慣れてしまったと思われる円記号の文字化けついて、以前にも書いたことがあるのだけれど(Apple Mailで円記号がバックスラッシュに化けて見える件)、今回はもう少し詳しく検討してみよう。 ISO-2022-JPには、ISO/IEC 646 IRV(国際基準版)に切り替えるエスケープ・シーケンス(1B 28 42)とJIS X 0201ラテン文字集合に切り替えるエスケープ・シーケンス(1B 28 4A)が用意されている。ISO/IEC 646 IRV(ASCII)の5Cはバックスラッシュ、JIS X 0201ラテン文字集合の5Cは円記号である*1。 Shift-JIS(CP932やMacJapanese)の時代には、バックスラッシュと円記号の違いを制御するのは困難だったため、「1B 28 42」と「1B 28 4A」の使い分けは一般化しなかった。しかし、現在使

    なぜ円記号はメールで化けるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    dpprkng
    dpprkng 2010/08/18
  • 1