関連タグで絞り込む (1)

タグの絞り込みを解除

UTF-8に関するtak_0x00のブックマーク (3)

  • UTF-8で4バイトになる文字 at softelメモ

    JIS X 0213の第3・4水準漢字の一部が4バイトとなる。マイナーな文字ですね。 例えば、第1・2水準漢字だけ対応していればよい案件などでは考慮しなくてよいでしょう。 MySQLではこのUTF-8で4バイトになる文字を扱えないのだとか(MySQL6なら対応したそうだ)。 数値文字参照で全部書いてみた。 (パッチのあたっていないWindowsXPなどでは表示されないです。) 𠀋 𡈽 𡌛 𡑮 𡢽 𠮟 𡚴 𡸴 𣇄 𣗄 𣜿 𣝣 𣳾 𤟱 𥒎 𥔎 𥝱 𥧄 𥶡 𦫿 𦹀 𧃴 𧚄 𨉷 𨏍 𪆐 𠂉 𠂢 𠂤 𠆢 𠈓 𠌫 𠎁 𠍱 𠏹 𠑊 𠔉 𠗖 𠘨 𠝏 𠠇 𠠺 𠢹 𠥼 𠦝 𠫓 𠬝 𠵅 𠷡 𠺕 𠹭 𠹤 𠽟 𡈁 𡉕 𡉻 𡉴 𡋤 𡋗 𡋽 𡌶 𡍄 𡏄 𡑭 𡗗 𦰩 𡙇 𡜆 𡝂 𡧃

    UTF-8で4バイトになる文字 at softelメモ
    tak_0x00
    tak_0x00 2012/01/20
    4バイト問題
  • MySQLで4バイトのUTF-8文字を扱ってみる - HHeLiBeXの日記 正道編

    JIS X 0213:2004で追加された「叱」の異体字は、Unicodeにおいては「UTF-8で符号化すると4バイトになる」コードが割り当てられている。また、中国語をまともに扱おうと思ったら「UTF-8で4バイト」の文字を扱う必要が出てくる。 そんな文字どもをMySQLデータベースに放り込もうと、UTF-8指定でがんばっていたのだが、ひとつの結論に行き着いたらしい。 MySQLの"UTF-8"にご用心 - yanok.netUTF-8で4バイト」の文字を扱おうと思ったら、MySQL 5.5.3以降を使い、さらに"utf8mb4"を指定せよ、という冗談のような当の話。 まぁグダグダ言っても始まらないので、まずは手元にある環境で試してみるところから。 事前準備 環境として、以下のものを使用する。 OS Windows Vista Business SP2 (x86) PHP v5.3.

    MySQLで4バイトのUTF-8文字を扱ってみる - HHeLiBeXの日記 正道編
    tak_0x00
    tak_0x00 2012/01/20
    4バイト問題
  • MySQLの"UTF-8"にご用心 - yanok.net

    拙著『プログラマのための文字コード技術入門』にも一言だけ書いたのですが、オープンソースのデータベース管理システムとして有名なMySQLのバージョン5.0とか5.1とかは、UTF-8として3バイトまでしか対応していません。 これは今どき考えられないくらい古い仕様です。3バイトのUTF-8というのは、Unicodeの基多言語面(BMP) という、16ビット固定で世界中の文字を符号化するんだと(誤って)言い張っていた、古き良き時代のUnicodeの範囲しか扱えません。 MySQLの5.5.3というバージョンではようやく4バイトのUTF-8への対応が図られたようです。5.5.3の変更点を記したページに記されています。 これを使えば、魚の名前の𩸽(ほっけ、U+29E3D)だとか、偏旁の𧾷(足偏、U+27FB7)だとか、あるいは日の地名として𣖔木作(ほうのきざく、福島県)の「𣖔」(U+23

    tak_0x00
    tak_0x00 2012/01/20
    4バイト問題
  • 1