タグ

文字コードに関するeienfのブックマーク (3)

  • MySQLと「令和」 - tmtms のメモ

    新元号が「令和」に決まったことなので、MySQLでの扱いについての話を。 普通の文字 「令」も「和」もJIS第一水準に含まれている基的な文字なので普通に日語が使用できるcharsetで使用できます。 mysql> create table t ( utf8mb4 varchar(255) charset utf8mb4, utf8mb3 varchar(255) charset utf8mb3, utf16 varchar(255) charset utf16, utf32 varchar(255) charset utf32, cp932 varchar(255) charset cp932, eucjpms varchar(255) charset eucjpms, sjis varchar(255) charset sjis, ujis varchar(255) charset

    MySQLと「令和」 - tmtms のメモ
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
  • ほら貝:文字コード

    <BODY BGCOLOR="#04CBCA" LINK="#00008B" VLINK="#403C3C"> <H1><FONT SIZE=5>文字コード問題を考える</FONT></H1> <BR>&nbsp; <BR> <HR> <BR> <DL><DL><DL><FONT FACE="MS明朝"> <DT><B><A HREF="revised.htm">◇</A> 主な変更履歴</B> <DD><BR> <DT><B><A HREF="show.htm">◇</A> 小は大をかねるか?</B> <DD><BR> <DT><B><A HREF="revised.htm">◇</A> 主な変更履歴</B>            Nov07 1998更新 <DD>&nbsp; <DT><B><A HREF="show.htm">◇</A> 小は大をかねるか?</B>         N

  • 1