unicodeと文字・言語に関するmoroshigekiのブックマーク (3)

  • 漢字の国際提案の歴史を図にしてみた - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    2001年以降に日が国際提案した漢字について、どのような経緯で規格化されたか、規格化されようとしているのかを、おおざっぱな図にしてみた。細かいことを言い出すとキリがないので、それは言わない方向で。下図、グレー地はドラフト段階のもの。 2001年に提案された謎の国字集合(今昔文字鏡ソース)は、その後、典拠の発見できない漢字については提案を取り下げられたりしたが、一部が2009年のUnicode 5.2でCJK統合漢字拡張Cとして規格化された。文字鏡ソースで拡張Cに入った367字のうち320字は汎用電子にも含まれる。 拡張Cに提案された文字のうち後回しにされたものは、拡張C2と呼ばれ、その後拡張Dと呼ばれることとなった。拡張Dは量があって審議に時間がかかるので、緊急に必要な漢字を少数に絞って先に入れましょうというのがUNC(Urgently Needed Characters)で、UNCは2

    漢字の国際提案の歴史を図にしてみた - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか?

    小形克宏 @ogwata 日の携帯絵文字を収録する国際会議に出席した話のつづき。この件は書こうか迷ったけど、書いておこう。ISO/IEC 10646(≒Unicode)で構造的に「ゴミ」文字が増えていく件。おかしな点があればぜひご指摘ください。 2010-04-25 23:46:39 小形克宏 @ogwata 一昨日のツィートで、WG 2会議は「対立を前提とした共同作業」だと書いた。自分が通したい主張を相手に呑ませるため、可能な限り妥協する。「ISO/IEC 10646のより良い改訂」という目的から、妥協は美徳とされる。互いに妥協しながら落し所を探る。これがWG 2会議の流儀だった。 2010-04-25 23:52:40

    ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか?
  • 第7回 「M17N」が開く可能性 - O'Reilly Japan Community Blog

    Ruby 1.9で注目の新機構、M17N(多言語化)を、まつもとさん、卜部さんのお二方が語ります。M17Nとは何か、どんなメリットがあるのか、M17Nが実装されたことで開かれる可能性とは? Ruby 1.9では文字列の抽象度が上がった Ruby 1.8ではすべてがバイト列だったんです。で、Ruby 1.9ではコードポイント1と対になっている文字を表現するようになりました。ちょっと抽象度があがりました。 ですから、これからは"ABCあいう"という文字列の0番目を取ると「A」という文字を返します。で、3文字目から1文字を取ると、変なバイトではなくて「あ」という文字を返します。 ― 3番目というのはゼロから数えて3番目のことですね。 ゼロから...皆さん分かりますよね。数字はゼロから数えますよね。 エンコーディングが使えるようになったので、マルチバイト文字を使う時にはエンコーディングプラグマ、僕

    moroshigeki
    moroshigeki 2010/02/04
    コードセット独立
  • 1