タグ

文字コードと絵文字に関するtekimenのブックマーク (2)

  • ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか?

    小形克宏 @ogwata 日の携帯絵文字を収録する国際会議に出席した話のつづき。この件は書こうか迷ったけど、書いておこう。ISO/IEC 10646(≒Unicode)で構造的に「ゴミ」文字が増えていく件。おかしな点があればぜひご指摘ください。 2010-04-25 23:46:39 小形克宏 @ogwata 一昨日のツィートで、WG 2会議は「対立を前提とした共同作業」だと書いた。自分が通したい主張を相手に呑ませるため、可能な限り妥協する。「ISO/IEC 10646のより良い改訂」という目的から、妥協は美徳とされる。互いに妥協しながら落し所を探る。これがWG 2会議の流儀だった。 2010-04-25 23:52:40

    ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか?
  • 文字って何かね? - Qiita

    元ネタ: 「文字列を文字の列とみなす単純化」ってどういうこと?解説編 - 西尾泰和のはてなダイアリー Shift JISおじさん(半角文字は1バイト、全角文字は2バイト派) 今どきShift JISもないだろうと思いますが、レガシーな業務システムなんかだと割と普通に残っていますね。 C#でShift JISな文字を扱いたければ、System.Text.Encodingクラスを使っていろいろすればいいです。 var text = "あいう"; var enc = System.Text.Encoding.GetEncoding("Shift_JIS"); // コードページ932でも可。 // 日WindowsならDefaultプロパティでもいい。 var bytes = enc.GetBytes(text); 後で書きますが、C# のchar型やstring型はUnicodeをベースに

    文字って何かね? - Qiita
  • 1