タグ

2017年11月13日のブックマーク (2件)

  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    Imamu
    Imamu 2017/11/13
    「ほとんどの絵文字~UTF-16では4バイト必要~どの言語でも極端に利用頻度が高いので、急に世界中の誰もがサロゲートペアについてきちんと考えざるを得なくなった」「最初からUTF-8を使う方がいいじゃないかという認識が」
  • 丸山眞男をひっぱたいた人々: hamachanブログ(EU労働法政策雑記帳) コメント 2017年11月12日 (日) 10時12分

    かなり長期にわたって閉鎖されていた大原社研のサイトがめでたく復活したようで、大原社研雑誌も読めるようになったようです。 https://oisr-org.ws.hosei.ac.jp/ https://oisr-org.ws.hosei.ac.jp/images/oz/contents/707%EF%BD%A5708_06.pdf その9/10月号に載っている加瀬和俊さんの「失業対策史研究を振り返る」という講演録は、戦前の失業対策事業、失業保険の試みなどの研究史を振り返って語っていて、『労働法政策』でも取り上げてテーマで興味深いのですが、その最後のあたりに出てくるトピックが、たぶん多くの人にとっては結構「へぇへぇ」なのではないかと思われ、ちょっと引用しておきます。 それは、「6 補 足―徴兵制と失業問題」というタイトルの短い一節で、加瀬さんが今から25年前に東大の社研雑誌に書いた論文の内容

    丸山眞男をひっぱたいた人々: hamachanブログ(EU労働法政策雑記帳) コメント 2017年11月12日 (日) 10時12分
    Imamu
    Imamu 2017/11/13
    「戦前の日本は徴兵制とはいいながら、実際に兵隊にとられる人の割合は意外に少なかったよう」「兵隊にとられたためキャリアの空白が生じてしまった戦前版「年長フリーター」」