タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

文字に関するGururiのブックマーク (2)

  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    Gururi
    Gururi 2017/11/18
    「Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ」IPv4みたいな(´・ω・`)
  • MobileHackerz再起動日記: 「~」←この記号の“本当の”名前

    2010/03/05 ■ 「~」←この記号の“当の”名前 http://www.example.co.jp/~miro/index.html 最近はこういうURLの振り方はあまり流行らないような気もしますが、それでもよく見かけますよね。このURLの中にある「~」という記号。これの当の名前、知ってますか? 「~の名前がわからない!」と聞かれたら、たぶんほとんどのみなさんは「チルダ!」と即答すると思います…が、これ、じつは状況によっては間違っている可能性もあるんです。 …と、ちょっと脅してみましたが、まぁ普通は「チルダだよ!」って言っときゃ間違いないです(笑)。ここから先はかなりマニアックな話になります。 みなさんが今、目にしているコンピュータ上の文書は「文字コード」という仕組みの上に成り立っています。あらかじめ文字ごとに番号を振って、○○番の文字はこれ、○○番の文字はこれ、とお互いに決め

    Gururi
    Gururi 2010/06/20
    文字コード、というか文字集合のお話。JISX0201にはチルダはなく、ASCIIにはオーバーラインは無い。URLに~と書かずに%7Eと書いてた(る)のはそのせいだよな?
  • 1