タグ

ブックマーク / moji-memo.hatenablog.jp (9)

  • CJK統合漢字拡張Fがヤバイ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    がCJK統合漢字拡張F1/F2に提案している文字には、すでにUCSに入っている漢字と見分けがつかない例がいくつもある。これらは、提案書*1に「Similar and Variation」として既存の文字の符号位置が記載されているものの一部であり、つまり、似ている漢字の存在は百も承知で提案しているわけだ。 以下、そのような例を拾ってみた。左右に並べた文字のうち「UCS」欄に符号位置が入っているほうが、既存のもの。個々の文字について述べることはしないが、要するに「別字の衝突であれば、形が同じでも別の符号を与える」ということだろう。 だが、ちょっと待ってほしい。それって実はものすごく根的な方針転換じゃないですか? 「機」の簡体字の「机」も「つくえ」の「机」も、形が同じである以上、同じ符号位置(U+673A)に包摂・統合するというのがCJK統合漢字の大原則であったはず*2。ここでいきなりそれ

    CJK統合漢字拡張Fがヤバイ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 人生がときめくWindows 8のIVS実装 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    皆さんこんにちは、片づけコンサルタントのこんまり先生です。 いきなりの個人名詐称……。 今日は、Windows 8のIVS実装について説明するわよ。 「わよ」? 最初に結論を言っちゃうと、Windows 8のMS明朝・MSゴシックがIVSでサポートしているのは、MS122から「筵」を引いて「濹」を足した122文字ね。 ん? 以前のエントリでも言ったように、Windows Vistaで変更された文字のうち、jp90タグやJIS90互換フォントパッケージによって昔のグリフに戻せる122字を、MS122と呼ぶんだけどね。 MS122はいいんですけど、そこからまた引いたり足したりするんですか? うん。 じぁあまず、マイナス分の「筵」は、何なんですか? MS122のうち「喩」と「筵」については、XPグリフがJIS90の例示と一致しないんだよね。 ホントだー。 だから「喩」と「筵」のXPグリフ(JIS

    人生がときめくWindows 8のIVS実装 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • IVS本へのツッコミ・付録の「文字コード表」編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)へのツッコミ第2弾。このは、巻末に付録として2つの文字コード表を掲載しており、ページ数では全体の約半分に及ぶのだが、これらの表にもいろいろ問題があるように思う。 「USC」が215回出現 2つの文字コード表のうち「文字符号対応表(CP932とJIS文字コード)」(pp.218-325)のほうから見ていくこととする。 まず、全ページで(100ページ以上に渡って)「UCS」が「USC」になっている。 フォントの問題 「IPAmj明朝」欄の表示に使われているのはIPAmj明朝ではなくIPAex明朝だと思う(下図を参照)。 ちょっとわけがわからない。 「IPAmj明朝」欄の0x02から0x1b(制御文字領域)に記号や罫線素片が入っているが、IPAmj明朝にもIPAex明朝にも、このような文字は入っていない。 フォールバックで別のフォン

    IVS本へのツッコミ・付録の「文字コード表」編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)を読んでいたら、いくつか気になる点があったので、まとめてみることにした。とりあえず、第4章(37ページ分)だけ。時間と気力があれば、今後、他も追加していくかも*1。組版上の突っ込みは(ひどい例以外は)省いた*2。 p.103 ISO/IEC 8859は《中略》パート16まで定義されています(パート15は破棄)。 破棄されたのはパート12。 p.104 「ISO-10646」の文字集合 「ISO-10646」→「ISO/IEC 10646」。 たとえば、1面19区75点を符号位置とする文字をシフトJISで8ビット符号化した場合0x8A6Bとなる文字を例に見てみましょう。この文字は、葛飾区の「葛」という文字ですが 「葛」はシフトJISで「0x8A6B」ではなく「0x8A8B」。 p.106 「U+000000」→「U+0000」(U

    『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • iPhoneの文字化けを防ぐ魔法の呪文 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    昨日のエントリ(「iPhoneのMailから送ったメッセージ全体が文字化け」のまとめ)読みましたよー。iPhoneから送るメールの文字化け防止策は、署名に「♡」を入れておけばOKなんですよね? うん。ただまあ、ちょっと気にする人はいるかもなあ。 男子に誤解されちゃう、と? いや、そういうのじゃなくて、つまり、化けちゃうんだよね。 えっ? 相手の環境によっては「♡」が化けるんだよ。 何ですかそれ。文字化け対策で入れた文字が化けたら意味ないじゃないですか。 意味はあるよ。iPhoneから送ったメールは相手先で全体が化けて読めなくなる可能性があるけど、「♡」でcharset=UTF-8にしておけば、この「全体化け」を防げるんだから。ただし、相手がケータイだったりすると、「♡」自体は「・」とか「?」とかになっちゃうってこと。 自らは捨て石となってメッセージ全体を救うということですか。UTF-8にな

    iPhoneの文字化けを防ぐ魔法の呪文 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    下図は、SoftBank iPhoneのMailが用いるShift_JISのIBM拡張文字領域*1。どうだ、驚いたろう。 SoftBank iPhoneのMailは、charset=Shift_JISをよく使う。髙村薫の「髙」や宮﨑あおいの「﨑」などのWindows外字もShift_JISで送るし、絵文字もShift_JISで送る。しかし、WindowsのIBM拡張文字領域とSoftBankの絵文字領域は、もともと衝突しており、共存できない。なので、SoftBank iPhoneのShift_JISでは、IBM拡張文字のうち下図ピンク部分が使えない。 だったらその分は、NEC選定IBM拡張文字のほうを使えばいいじゃないですか、どうせダブってるんだから(下図)。というのが、大ざっぱに言えば、SoftBank iPhoneのMailが用いるShift_JISである。 その外字領域をまとめると、

    SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    もうすぐお正月だし、こんな図を作ってみたんだけどね。 十二支ですか? いろんな国の十二支? そうそう。実はこれ全部、「どこの国の十二支の何番目の動物」という情報まで含めて、Unicodeのコードチャートに載ってるものなんだよね。 いちばん左の列が標準的な十二支ってことですね。 うん。日だと、12番目のイノシシだけが独自仕様だな。それが標準仕様だとブタ。 カザフスタンでは、来年の干支はカタツムリですか。 よくわからないけど、そうなのかな。 このペルシアのネズミは、どうして小さいんですか? 標準仕様のネズミの絵を縮小したみたいに見えますけど。 それはネズミの種類が違うんだよ。ドブネズミとハツカネズミ。 え? でもこれ、文字なんだから、たとえばゾウでもアリでも同じ大きさに描かれるものですよね。 原則は、そうだね。 じゃあ、どうしてドブネズミを縮小したのがハツカネズミなんですか? まあ、ちょっと

    Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • auのiPhoneで絵文字が化ける問題についてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    この項追記。2012年1月27日、au iPhoneはケータイ絵文字に対応したので、以下の記述はすでに古い。詳しくは「auとSoftBankのiPhoneにおける絵文字対応を比較する」を参照。 auのiPhone絵文字が化ける問題について、まとめておく*1(以下、iPhoneはiOS 5であることが前提)。細かい条件によっていろいろ違いがあるのだけれど、大ざっぱには、下図の赤矢印が化ける。つまり、iPhoneの@ezweb.ne.jpアカウントからiPhoneの@i.softbank.jpアカウントに絵文字を送ることはできるが、逆方向の場合は化ける。また、auのiPhone(@ezweb.ne.jp)とauのケータイの間では、送受信ともに化ける*2。 auのケータイから送った絵文字をauのiPhoneで表示すると、化ける(下図)。これは、「auの絵文字入りISO-2022-JP」が「Wi

    auのiPhoneで絵文字が化ける問題についてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • いろんな日本語EUCについてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    語EUC(EUC-JP)にはいろいろあって頭がこんがらがってきたので、サルにもわかるように(つまり、自分があとから見て理解できるように)まとめてみた*1。まず、EUC-JPにはどんな種類があるのだろうということで、わたしの環境で実装例を確認できるものをピックアップしてみた。下図のうちeucJP-openとIANAのEUC-JPについては身近な実装例を思いつかなかったが、これを外すわけにはいかないだろうと思って入れておいた。 各EUC-JPのレパートリをまとめたのが、下図。eucJP-openには上図に示したようなバリエーションがあるが、レパートリは共通。「JIS X 0208の国際基準版・漢字用8ビット符号 + JIS X 0201片仮名」については、これを一言で表現できる呼称を思いつかないので、以下の図では仮に「TextEdit」と表記する。 下図は、各EUC-JPのレパートリと符号

    いろんな日本語EUCについてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 1