タグ

文字コードに関するnoeloasisのブックマーク (6)

  • MySQL と寿司ビール問題 - かみぽわーる

    MySQL と Unicode Collation Algorithm (UCA) - かみぽわーる に関連するトピックで、 MySQL には寿司ビール問題というのがある。 寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。 あれ? MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる? SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select

    MySQL と寿司ビール問題 - かみぽわーる
  • 「文字列と文字コードの相互変換」 ~マンガでプログラミング用語解説

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    「文字列と文字コードの相互変換」 ~マンガでプログラミング用語解説
  • シフトJISの闇を訪ねる旅

    小形克宏 @ogwata 相変わらずシフトJISについて調べているわけだが、先日の文字の学校で狩野さんから「『CJKV』第2版ではシフトJIS関連がばっさり削られているんですよね」との情報を得て、ひょっとしたらと一番最初の版『日語情報処理』(1995年、ソフトバンク)を見てみたら、これが一番詳しい! 2013-05-23 22:08:51 小形克宏 @ogwata さすが1995年のだけあって、ベンダーごとの実装差は必要不可欠。新しい版が出たらかといって、古い版を捨てなくてよかった…と書いたところで、Facebook経由で安岡さん曰く「でもミスも多い!」だそうです。しょぼん。 2013-05-23 22:12:38 小形克宏 @ogwata そうか、EPSONの98互換機は単純にJIS83だと思っていたけど、符号化文字集合としては78JISにJIS83の追加分を加え、レパートリにJIS

    シフトJISの闇を訪ねる旅
  • Unicode―文字コード入門―

    Unicodeとは 多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みである文字コードも、その国の数だけ増えていく状態であり、情報交換のために様々な不都合が生ずるようになってきました。また、企業の側でも各国個別の言語に合わせたソフトウェアを開発するためには膨大なコストが必要なため、これを解消する手段が求められるようになってきたのです。 そこでこの問題を解消すべく、IBM、MicrosoftApple等が加盟(他のメンバーについてはこちらを参照)するNGOであるUnicodeコンソーシアムが中心となって、全ての文字を16ビット(65536文字)に収録してしまおうという、野心的な多重言語文字セット規格の制定を企図していました。またそれとは別に、国際標準化機構(ISO)が、世界中の主要な文字を一括して扱う多重言語文字セット規格を開発していました。国際規格が複数制定される

  • いいから聞け! 俺が文字コードについて教えてやるよ その2(Javaの文字コード編) - 谷本 心 in せろ部屋

    前回のエントリーでは「Java関係ないやん」的なツッコミも受けましたが、 今回からは、Javaを前提にしていきます。 Javaで文字から文字コードを作る 新人くん「Javaで文字から文字コードを作りたいんですが、どうすれば良いんですか?」 先輩社員「getBytesすれば一発だね」 新人くん「getBytesした後のバイト配列から上手く文字列を作れないんですが・・・」 先輩社員「それは別の話だね」 前回のエントリーでは、WordやIMEを利用した文字と文字コードの変換方法を説明しましたが、 では、Javaではどうやれば良いのでしょうか。 Javaで文字から文字コードを作るには、 先輩社員も言っている通り、String#getBytes(charset)するだけです。 具体的なコードは、以下のようになります。 String str = "あいうえお"; byte[] utf8 = str.g

    いいから聞け! 俺が文字コードについて教えてやるよ その2(Javaの文字コード編) - 谷本 心 in せろ部屋
  • レビューで鍛えるJavaコーディング力 その7(文字コードチェック) - 谷本 心 in せろ部屋

    今回は、文字コードのチェック(エンコーディングチェック)を行う処理に関する問題です。 問題 以下のコードの問題を指摘し、修正してください。 ただし、問題は複数あることもあれば、全くないこともあります。 public class StringValidator { private static boolean checkCharacterCode(String str, String encoding) { if (str == null) { return true; } try { byte[] bytes = str.getBytes(encoding); return str.equals(new String(bytes, encoding)); } catch (UnsupportedEncodingException ex) { throw new RuntimeExcepti

    レビューで鍛えるJavaコーディング力 その7(文字コードチェック) - 谷本 心 in せろ部屋
  • 1