タグ

Unicodeに関するidoyaのブックマーク (3)

  • Unicode(UTF-8)への各種メールソフト対応調査

    Unicode(UTF-8)で書かれたメールを受信した際に、各種メールソフトがどの程度、NEC特殊文字(丸の中に数字が入っているものや、「(株)」の一文字版など))やNEC選定IBM拡張文字(はしご高・や、SMAPの草剛の「」など。)、ハングル文字の表示への対応をまとめてみました。 メール送信用に利用したのはOutlook Express6.0(WindowsXP)でした。また、これはあくまでもUnicode(UTF-8)でのテキストメール(HTMLメールではありません。)の受信テストです。「①」「㈱」などのNEC特殊文字、「髙」「德」「彅」などのNEC選定IBM拡張文字がUTF-8のメールの場合、Macでどのように表示されるのかをテストしてみました。また、合わせて多言語文字コードであるUnicodeの力を見るため、ハングル文字の受信テストも行いました。 (Unicodeだからこそ可能かも

  • 文字コードを定めても使われなければ意味がない - プログラマーの脳みそ

    ケータイ絵文字、世界に Googleが標準化へ - ITmedia NEWS 絵文字をUnicodeにって話題が上がっていて、同形の文字とかですら揉めるのに、絵文字の統合なんてできるのか?って疑問を呈したのがhttp://kokogiko.net/m/archives/002213.html * 「怒った顔」ひとつとっても、DoCoMoでは「吊り目への字口の怒り顔」「頬を膨らませた怒り顔」というのがあるのだけれど、EZでは「への字口の怒り顔」「顔を横につんと逸らした怒り顔」「鼻息の荒い怒り顔」だったりする。 さらにはEZの場合、同じような表情で、「人の顔」「の顔」「もやしもんの菌みたいな格好で微妙に全身表現になっている感情表現」があったりする。 これを単純に、「怒り顔」としてフォールバックしていいのか? * 「OK」の表現でも、DoCoMoは親指を立てたエドはるみの「グゥー」の指で「OK

    文字コードを定めても使われなければ意味がない - プログラマーの脳みそ
  • PHPにおけるUnicode文字列の正規化:CodeZine

    はじめに 与えられた文字列を含む文書を返す検索機能を実装しているところを想像してください。 検索語として「ページ」が与えられれば、「ページ」という文字列を含む文書を返します。これは特に難しいことではありません。 半角の「ページ」が与えられたらどうでしょう。「ページ」と「ページ」を区別する必要がないような、一般的な文書検索においては、「ページ」という文字列を含む文書を返すのが望ましいはずです(もちろん、この2つは常に同一視できるわけではありません。同一視できない例として稿があります)。 もしかしたら、「㌻」で検索しようとする人がいるかもしれませんし、日語を母国語としない人が、「ぺ」(「ヘ」と半角の半濁点「゚」)や「ヘ゜」(半角カナ「ヘ」と半濁点「゜」)を使うかもしれません。 人間なら簡単に対応できることですが、コンピュータで対応するには特別な処理が必要になります。例えばUnic

  • 1