タグ

文字コードに関するbsheepのブックマーク (4)

  • ウノウラボ Unoh Labs: 絵文字の相互変換リスト

    こんばんは。harukです。 2週間前からビデオポップ担当になり、まず最初に、3キャリアの絵文字の変換から取り組みました。 検索して探してみたものの、いいものが見つからなかったのですが、幸いにも、3キャリアそれぞれメールでは絵文字の自動変換があるので、それを利用して作ることができます。(昔は手入力で一つ一つやってました) Tab区切りのテキストファイル(TSV)を置いておきましたので使いたい方は使ってください。 絵文字の番号の付け方はそれぞれ以下のようになっています。 DoCoMo(i-mode) 基絵文字:%i(1~176)% 拡張絵文字:%i(1001~1076)% au(EZweb) 絵文字番号=%e(1~822)% SoftBank PAGE1(G):%s( 1~ 90)% PAGE1(E):%s(101~190)% PAGE1(F):%s(201~290)% P

  • 文字コード超研究

    文字コード超研究
  • regexp - yet another fix for dodgy UTF-8 : 404 Blog Not Found

    2007年02月14日21:30 カテゴリLightweight Languages regexp - yet another fix for dodgy UTF-8 他の言語にも移植しやすいようにrefactorしてみました。 subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes すでに utf-8 なバイト列を latin-1 と解釈して utf-8 に二重エンコードすることで起きる文字化け(を表現する短い言葉ってないのかな)を直すコード。sub fix_utf8 { my $bytes = shift; utf8::encode($bytes) if utf8::is_utf8($bytes); $bytes =~ s{ ([\xC2\xC3])([\x80-\xBF]) }{ chr( (ord($1) << 6 & 0xff) |

    regexp - yet another fix for dodgy UTF-8 : 404 Blog Not Found
  • Windows Vistaの登場で顕在化する問題 - Cafe Babe

    C#言語のJIS改訂作業の委員会に出ていて,もうすぐWindows Vistaがリリースされるために現在各社で懸命に検証作業をおこなっているが,その中で見つかったという興味深い問題の話を某氏に聞いた.なお,私自身はまだ使っていないので,伝聞の話として読んでほしいし,間違いがあれば指摘して欲しい. Windows VistaがJIS X 0213に対応することは,みなさん聞いているかもしれない.これは一体どういうことかというと,使う側から見たらより多くの文字を表示できるようになるだけでなく,仮名漢字変換の段階で,それらの文字を含んだ候補が提示されるということだ.また,開発者の側から見ると,プログラム内部でEUC符号化やシフトJIS符号化で扱うことができなくなるのでUnicodeとして扱えるように移行していくだろうこと,そしてUnicodeを採用したシステムであっても,仕様に忠実な文字の扱い…

    Windows Vistaの登場で顕在化する問題 - Cafe Babe
  • 1