タグ

unicodeに関するntaooのブックマーク (10)

  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
  • Shift_JIS文化からUTF-8への移行ガイド - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    Shift_JIS文化からUTF-8への移行ガイド - Qiita
  • Unicode In Python, Completely Demystified

    What does this mean? UnicodeDecodeError: 'ascii' codec can't decode byte 0xc4 in position 10: ordinal not in range(128) Never seen this exception? Seen it and sort of fixed it? This is a confusing error If you've never seen this before but want to write Python code, this talk is for you If you've seen this before and have no idea how to solve it, this talk is for you This is a really confusing err

    ntaoo
    ntaoo 2015/03/04
    2008年だけどこれは良資料じゃないか
  • 「絵文字に平等をサポートしてください」人種差別の指摘にゆれるUnicode 

    ntaoo
    ntaoo 2014/10/07
    ガラケーを殺せても絵文字は殺せなかった結果。恐ろしい...
  • Mac/iOS Safariでバックスラッシュを円記号として表示する方法 - teppeis blog

    Unicodeではバックスラッシュ*1と定義されているU+005Cだが、歴史的な背景によりMS系日フォントでは円記号が割り当てられているのはよく知られた話。 ところがMac/iOSに載っているヒラギノ角ゴシック等ではU+005Cはバックスラッシュとして表示されるし、キーボードの右上の円記号キーを打つとU+005CではなくU+00A5 Yen Signが入力される*2。 それぞれのシステム内で閉じてれば一貫性が保たれるのだけど、Windowsで円記号を意図して入力したU+005Cが、Mac/iOSではバックスラッシュとして表示されてしまう。企業で使われるWebシステムの場合、Windows PCiPhone/iPadってメジャーな組み合わせだし、円記号が化けるってのは日企業ではわりと見過ごせない問題だったりする。 実はSafariではこのバックスラッシュ円記号問題への特別対応コードが

    Mac/iOS Safariでバックスラッシュを円記号として表示する方法 - teppeis blog
  • Unicode 7.0の仕様公開 新たに約250の絵文字を追加

    Unicode Consortiumは6月16日、「Unicode 7.0」を公開したと発表した。このバージョンには2834個の新たな記号が追加されており、その中には約250個の「emoji(絵文字)」も含まれる。Unicodeには前バージョンである6.0で1000個以上の絵文字が組み込まれたが、利用できる絵文字の数がさらに増えた。

    Unicode 7.0の仕様公開 新たに約250の絵文字を追加
    ntaoo
    ntaoo 2014/06/17
    emoji…unicodeがガラケーに呪われる
  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
  • Unicodeについて

    Maxyは、Unicode対応のテキストエディタです。 ところで、そもそもUnicodeって何なのでしょうか。 UnicodeとUTF-8とかUTF-16との関係は? そのあたりのことを簡単に説明していきます。 文字コードとは 日語を扱うには? 文字化け 多言語の混在 Unicodeの誕生 サロゲートペア エンコード方式 BOM そして今… 資料 文字コードとは まずは基中の基だけど、(現在のところ)コンピュータが扱えるのは数値のみという大前提がある。 何をするにも数値をいじるしかない。 きれいなCGも、優雅な音楽も、つまるところ数値なわけだ。 「ここに100を書き込んで、ここに150を書き込んで…」と、コンピュータが必死になっていろんなところに数値を書き込んだ結果としてCGが表示されたり音楽が流れたりするわけ。 そんなわけだから、当然コンピュータ内で文字を表現するにも数値が必要で、

  • Unicode―文字コード入門―

    Unicodeとは 多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みである文字コードも、その国の数だけ増えていく状態であり、情報交換のために様々な不都合が生ずるようになってきました。また、企業の側でも各国個別の言語に合わせたソフトウェアを開発するためには膨大なコストが必要なため、これを解消する手段が求められるようになってきたのです。 そこでこの問題を解消すべく、IBM、MicrosoftApple等が加盟(他のメンバーについてはこちらを参照)するNGOであるUnicodeコンソーシアムが中心となって、全ての文字を16ビット(65536文字)に収録してしまおうという、野心的な多重言語文字セット規格の制定を企図していました。またそれとは別に、国際標準化機構(ISO)が、世界中の主要な文字を一括して扱う多重言語文字セット規格を開発していました。国際規格が複数制定される

  • utf8_general_ci と utf8_unicode_ci の違い - Ceekz Logs (Move to y.ceek.jp)

    以前までは、データベース MySQL を利用したアプリケーションを作るときは、文字コードとして EUC-JP を利用していました。最近は、国際化との兼ね合いなどから UTF-8 を利用するようにしています。 MySQLUTF-8 を扱う場合、照会順序として utf8_bin を使用していました(何も考えずに)。 utf8_bin の場合、部分一致探索 LIKE などの使用時に英字の大文字小文字が区別されてしまう。大文字小文字を区別されないようにするためには、照会順序として utf8_general_ci を使用すればよいのですが、他にも utf8_unicode_ci があることに気がつきました。 utf8_general_ci と utf8_unicode_ci では、どこが違うのだろう? utf8_general_ci also is satisfactory for both

  • 1