UTF-8の文字コード表なのです。いつも検索して、よそ様のページを参照させていただいていたのですが、面倒なので自分で作りました。 perlのスクリプトでガーッと出したので、見栄えはアレですが、とりあえず。 1バイト文字 2バイト文字 3バイト文字 E2 9C 80 ~ Dingbats、昔からある記号、絵文字とか E3 80 80 ~ 全角ひらがな・カタカナ EF BC 80 ~ 全角英数字、半角カナ 4バイト文字 F0 9F 8C 80 ~ たぶん今どきの皆さんの言う絵文字 F0 9F 98 80 ~ 顔文字 更新履歴 (2018-05-10 追記) コード表を全体的に再出力しました。変更点は以下の通りです。 unicode追加面、4バイト文字の表もつくりました。 各文字ブロックにタイトルを付けました。英語タイトルはUnicode仕様書PDFへ直リンクしています。 表示されてないけど、ど
MySQL に iOS の絵文字(4bytes UTF-8)が入った文字列を INSERT/UPDATE すると絵文字以降の文字がぶった切られる。 どういうことかというと、下の文字列を MySQL に INSERT/UPDATE する… あいうえお [ 絵文字 ] かきくけこ すると、このようになります。 あいうえお symfony1.4 の Doctrine_Table_Exception Unserialization のエラーでこの不具合に気付きました。 データベースに入れた serialize データを unserialize したときに、上のエラーはかれてデータがぶった切られてることが判明したのです。 注意点この不具合は MySQL 5.5 では直っています。直っているといってもキャラクターセットに utf8mb4 を指定しなければいけないようです。 MySQL 5.5 以上で、
JIS X 0213:2004で追加された「叱」の異体字は、Unicodeにおいては「UTF-8で符号化すると4バイトになる」コードが割り当てられている。また、中国語をまともに扱おうと思ったら「UTF-8で4バイト」の文字を扱う必要が出てくる。 そんな文字どもをMySQLデータベースに放り込もうと、UTF-8指定でがんばっていたのだが、ひとつの結論に行き着いたらしい。 MySQLの"UTF-8"にご用心 - yanok.net 「UTF-8で4バイト」の文字を扱おうと思ったら、MySQL 5.5.3以降を使い、さらに"utf8mb4"を指定せよ、という冗談のような本当の話。 まぁグダグダ言っても始まらないので、まずは手元にある環境で試してみるところから。 事前準備 環境として、以下のものを使用する。 OS Windows Vista Business SP2 (x86) PHP v5.3.
JIS X 0213の第3・4水準漢字の一部が4バイトとなる。マイナーな文字ですね。 例えば、第1・2水準漢字だけ対応していればよい案件などでは考慮しなくてよいでしょう。 MySQLではこのUTF-8で4バイトになる文字を扱えないのだとか(MySQL6なら対応したそうだ)。 数値文字参照で全部書いてみた。 (パッチのあたっていないWindowsXPなどでは表示されないです。) 𠀋 𡈽 𡌛 𡑮 𡢽 𠮟 𡚴 𡸴 𣇄 𣗄 𣜿 𣝣 𣳾 𤟱 𥒎 𥔎 𥝱 𥧄 𥶡 𦫿 𦹀 𧃴 𧚄 𨉷 𨏍 𪆐 𠂉 𠂢 𠂤 𠆢 𠈓 𠌫 𠎁 𠍱 𠏹 𠑊 𠔉 𠗖 𠘨 𠝏 𠠇 𠠺 𠢹 𠥼 𠦝 𠫓 𠬝 𠵅 𠷡 𠺕 𠹭 𠹤 𠽟 𡈁 𡉕 𡉻 𡉴 𡋤 𡋗 𡋽 𡌶 𡍄 𡏄 𡑭 𡗗 𦰩 𡙇 𡜆 𡝂 𡧃
2011-08-28 UnicodeとUTF-16とUTF-8についてまとめてみた 仕事でUnicodeについて調べることがあったのでそれをここにまとめてみます(Unicode公式サイトやJavaで実装してみた結果から得た情報ですが間違っていたらごめんない。) UnicodeとUTF-16、UTF-8 Unicodeとはキャラクタセットです。一方UTF-16とUTF-8とはキャラクタエンコーディングです。キャラクタセットとは名前のとおり文字の集合です。キャラクタエンコーディングは文字のバイナリ表現です。 違いが分かりにくいので図で表すと下のような感じです。 UnicodeとUTF-16、UTF-8 Unicodeは文字集合の定義で、計算機上で(このUnicode文字を)UTF-16としてバイナリ表現することもあればUTF-8としてバイナリ表現することもあります。例えば同Unicod文
mysqlでは、collate = utf8_unicode_ciを指定すると、大文字-小文字だけでなく、全角-半角を同一視できるそうですが、実際にどの文字が同一視されるのかを試してみました。 collateとは http://tetlist.info/2009/01/mysql ↑このエントリでも分かりやすく紹介されていますが、collate(照合順序)とは、文字を比較(一致/不一致や表示順)する際のルールです。 utf8_unicode_ciで大文字-小文字だけでなく、全角-半角を同一視 mysqlのデフォルトcollateであるutf8_general_ciでは、大文字-小文字を同一視しますが、utf8_unicode_ciでは、さらに半角-全角も同一視します。 ※ci とは Case Insensitive の略称のようです tableやcolumn自体にcollateを設定する
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く