タグ

Unicodeに関するkawachoのブックマーク (12)

  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
  • 「絵文字に平等をサポートしてください」人種差別の指摘にゆれるUnicode 

  • サロゲート・ペアのトラブルはいつまで続くか - yanok.net

    先日テレビをなんとなく見ていたら、エンディングのスタッフロールに「𡈽野」という名字が見えて俄然注意を引かれました。 「𡈽」は「土」の異体字で、JIS第3水準漢字、面区点1-15-34にあります。UnicodeではBMPになく、面02、U+2123Dなので、UTF-16ではサロゲート・ペアが必要です。 異体字なので読みや意味は「土」と同じです。読みや意味が同じだったら区別する必要はないだろうという気もしますが、それはまた別の話。テレビでは読みが書いていなかったので推測するしかないのですが、ヒジノかハジノ、あるいはツチノと読むのでしょうか。 そんなことをTwitterでつぶやいたのですが、事件はそのあと起こりました。事件というほど大げさなことでもありませんが。 Twitterには自分の投稿に対するアクションがあるとメールで通知する機能があります。オフにしておこうと思いつつそのままになってい

  • なぜAppleカラー絵文字のプードルには眉毛があるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    ここに2匹のプードルがいるんだけどね。 間違い探しですか? ズバリ、左にだけ眉毛がありますね。 うん。眉毛があるほうが、iPhoneやLionに入ってる絵文字フォントのプードル。眉毛のないほうが、Unicodeのコードチャートに載ってるプードル。 えっ、どういうことですか? そもそもUnicodeにケータイ絵文字を入れようって提案したのがGoogleAppleだからね。提案書のための絵文字Appleが用意して、それがUnicodeに収録された。そのあとで、iPhone絵文字に含まれていなかった文字については、データを流用して絵文字フォントに追加したってことじゃないかな。 だからほとんど同じなんですね。でも、眉毛はどうなりました? ケータイ絵文字をUnicodeに収録する過程では、いろいろあってさ。たとえば、日絵文字のマンガっぽさをめぐる戦いとか。ほら、アイルランド・ドイツ修正案って

    なぜAppleカラー絵文字のプードルには眉毛があるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    もうすぐお正月だし、こんな図を作ってみたんだけどね。 十二支ですか? いろんな国の十二支? そうそう。実はこれ全部、「どこの国の十二支の何番目の動物」という情報まで含めて、Unicodeのコードチャートに載ってるものなんだよね。 いちばん左の列が標準的な十二支ってことですね。 うん。日だと、12番目のイノシシだけが独自仕様だな。それが標準仕様だとブタ。 カザフスタンでは、来年の干支はカタツムリですか。 よくわからないけど、そうなのかな。 このペルシアのネズミは、どうして小さいんですか? 標準仕様のネズミの絵を縮小したみたいに見えますけど。 それはネズミの種類が違うんだよ。ドブネズミとハツカネズミ。 え? でもこれ、文字なんだから、たとえばゾウでもアリでも同じ大きさに描かれるものですよね。 原則は、そうだね。 じゃあ、どうしてドブネズミを縮小したのがハツカネズミなんですか? まあ、ちょっと

    Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • Appleカラー絵文字の「勝ち誇った顔」がニヤけている理由 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    Appleカラー絵文字の「勝ち誇った顔」(U+1F624 FACE WITH LOOK OF TRIUMPH)をUnicodeのコード表と比べると、かなり印象が異なる。予備知識なしに両者を見て「同じ字」だと思う人はいないだろう(下図)。 Appleカラー絵文字のうちモノクロのもの(Lionで追加された分)は、ケータイ絵文字のUnicodeへの収録過程におけるGoogleApple提案(いちばん最初の提案)の字形を流用しているようだ。 しかし、「勝ち誇った顔」は、非常にややこしい経緯のあった字で、審議の過程で質的な修正がなされている。この字については、Appleカラー絵文字でもUnicode 6.0の例示を尊重したものを実装して欲しかった。 GoogleApple提案の「勝ち誇った顔」のグリフを修正するべきだった理由は「Unicodeのケータイ絵文字対応表への疑問」(この記事におけるU

    Appleカラー絵文字の「勝ち誇った顔」がニヤけている理由 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • ユニコード戦記─文字符号の国際標準化バトル - moroshigeki's blog

    著者の小林龍生さんよりご恵贈いただきました。ありがとうございます。 ユニコード戦記 ─文字符号の国際標準化バトル 作者: 小林龍生出版社/メーカー: 東京電機大学出版局発売日: 2011/06/10メディア: 単行購入: 7人 クリック: 466回この商品を含むブログ (20件) を見る 内容も、語り口も、すばらしくおもしろかった、と言いたい。内容の一部は著者人から直接聞いたことがあるものもあるし、すでに読んだことがある原稿の再録もあったりするのだが、それらも含めておもしろかった。 もっとも、文字コード関連の知識を多少なりとも持っていないと、「ISO/IEC JTC1/SC2/WG2/IRG」のようなメダパニ系呪文にやられてしまうかもしれない。逆に文字コードに詳しい人のなかでも、Unicodeの現状に不満を持っている人にとっては、規格制定側からの言い訳にしか読めないかもしれない。私の場

    ユニコード戦記─文字符号の国際標準化バトル - moroshigeki's blog
  • 暴走するmds - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    Spotlightの検索がダメで、先日ハードディスクを初期化し、システムを再インストールした。移行アシスタントで以前の環境を引き継いでしまっては元の木阿弥なので、各種の設定やアプリケーションのインストールは新たに行い、ドキュメント類のみ、バックアップ先の外付けハードディスクから内蔵ハードディスクに手動でコピーした。 が、やはりSpotlightで内蔵ハードディスクの検索ができない。具体的には、Spotlight用の索引作成プロセス(mds)がCPUをほぼ100%占有したまま、いつまで待っても終了しない。この状態に陥ると、Time Machineによるバックアップもできなくなってしまう。 わざわざ初期化までした以上、バックアップ先から持ってきたファイルに問題がある可能性が高い。そこで、内蔵ハードディスク内のファイルを「システム環境設定>Spotlight>プライバシー」に入れたり出したりして

    暴走するmds - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • Unicode Snowman for You

  • ATSUI Programming Guide: Introduction to ATSUI Programming Guide

    Note: This document was previously titled Rendering Unicode Text With ATSUI. Apple Type Services for Unicode Imaging (ATSUI) is the technology behind all text drawing in Mac OS X. This document gives an overview of ATSUI, provides an introduction to the concepts and terms you need to understand ATSUI, discusses the core data types you use to control text layout and styles, and shows you how to use

  • ATSUIとは アツイ: - IT用語辞典バイナリ

    ATSUI フルスペル: Apple Type Services for Unicode Imaging 読み方: アツイ ATSUIとは、Mac OSのQuickDraw APIを拡張し、アプリケーションが、Unicodeでエンコーディングされたテキストを描画できるようにするための描画エンジンのことである。 ATSUIは、QuickDrawの機能拡張版とも言える描画エンジンであるが、Unicodeのテキストの描画機能を提供するだけでなく、それまでQuickDraw GXが担っていたハイエンドなタイポグラフィ制御の多くをサポートしている。 ATSUIは、それまで多言語テキスト描画エンジンとして採用されていたWorldScriptに置き換わる形で登場し、Mac OS 8.5で初めてサポートされた。Mac OS XにおいてもATSUIはサポートされている。Mac OS X v10.5 Leop

    kawacho
    kawacho 2009/08/28
    『ATSUIとは、Mac OSのQuickDraw APIを拡張し、アプリケーションが、Unicodeでエンコーディングされたテキストを描画できるようにするための描画エンジンのことである。』WorldScript -> ATSUI -> Core Text
  • UTF-8-MAC - MacWiki

    UTF-8-MAC とは[編集] UTF-8-MAC とは、Mac OS X に付属する iconv にて利用できる文字エンコードの一つで、 Normalization Form D (NFD) で符号化した UTF-8 のことを指します。 一般に UTF-8 とだけいった場合には、Normalization Form C (NFC) でエンコードされたものを意味します。 Unicode 標準では、NFC は正規結合(Canonical Composition)、 NFD は正規分解(Canonical Decomposition)として規定されています。 たとえば、「が」の字を NFC で表現すると U+304C (HIRAGANA LETTER GA) ですが、 NFD では U+304B U+3099 (HIRAGANA LETTER KA + COMBINING KATAKANA-

  • 1