タグ

UTF-8に関するhurvinekのブックマーク (2)

  • UTF-8で変換できない機種依存文字を置換する

    Summary UTF-8 のページから (株) や ローマ数字の I などの文字をメールで送信すると,文字化けする. 文字化けしそうな文字を,ad hoc に機種依存しない文字に変換する. ローマ数字もカッコで括るか,スペースを挿入したほうが良いかも. Source function replaceText($str){ $arr = array( /* --- 0x2100 - 0x2138 (文字種記号) --- */ // 0x2100 - 0x210F '\xE2\x84\x80' => 'a/c', '\xE2\x84\x81' => 'a/s', '\xE2\x84\x82' => 'C', '\xE2\x84\x83' => '?', '\xE2\x84\x84' => '?', '\xE2\x84\x85' => 'c/o', '\xE2\x84\x86' => 'c/u

    hurvinek
    hurvinek 2009/10/27
    UTF-8のフォームから文字化けしそうな文字を,ad hoc に機種依存しない文字に変換する
  • ■UTFとは何か■

    最近unicodeに対応したソフトが増加してくるにつれ、用語の混乱も一部には見られるようになってきました。そこで特に触れることの多い、UTF-7,UTF-8,UTF-16 についてここで少し取り上げておきたいと思います。 UnicodeとUCS UnicodeはThe Unicode Consortiumが定めた文字コードの規格である。UCSはISOとIECが共同で制定したもので、ISO/IEC 10646 の規格番号が付いている。両者は大雑把にいえば同じものと考えてもよいのだが、違う機関が定めたものである故に、微妙に(?)差があるのも事実である。 ■Unicode側の改訂経緯 Unicode1.0(1991) アメリカ技術者を中心に作られ、漢字コードは極めてデタラメ Unicode1.1(1993) 中国技術者が加わり、少しはまともになる。日が猛反発。 Unicode2.0(199

  • 1