技術と文字コードに関するmojiuraのブックマーク (27)

  • Snow Leopardの文字ビューアはどこが変わったのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    Leopard以前の「文字パレット」は、Snow Leopard(Mac OS X 10.6)では「文字ビューア」になった。でもファイル名は「CharacterPalette.app」。Mac OS Xにおける「パレット」と「ビューア」の定義の違いって何なのだろう。 Leopardの文字パレットは一般的なアプリケーションのウインドウと同様、Spacesにおいて単一の操作スペースに表示されるため、操作スペースを切り替えると置き去りにされてしまい不便だった。文字ビューアはすべての操作スペースに(同時に)表示される。 文字ビューアでは「説明とコード」と記された検索フィールドが追加された(括弧内追記。いま自宅のLeopardマシンで確認したら、これ、Snow Leopardの新機能じゃないですね。「説明とコード」というテキストが表示される点は新しくて、そのせいで新機能かと早とちりしました。言い換え

    Snow Leopardの文字ビューアはどこが変わったのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    mojiura
    mojiura 2009/09/23
    これは便利そうだ。Mac 欲しい。
  • InDesignにおけるJIS04基準フォントのウマヤ化け問題 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    InDesign CS4で「厩」を入力・選択し、字形パネルをダブルクリックしてCID+13647に置換。フォントは(たとえば)小塚明朝Pr6N。そのウェイトを変更してみる。と、CID+13412に化ける(下図)。 このグリフ化けのおもしろい点は、cmapテーブルもaaltテーブルも共通だと思われるフォント間で(ウェイトの違いのみで)化けていること。以下、化ける理屈(推測)について、大雑把に述べる。 InDesignにおけるaalt(すべての異体字)タグを利用したグリフ置換のメカニズムは、cmapテーブルまたはaaltテーブルが異なるフォント間では、基的にうまく機能しない。実際、InDesign 2では、いろいろ化けていた。 CS以降のInDesignでは、Adobe-Japan1-4とAdobe-Japan1-5のcmapテーブルの違いおよび2系統存在するaaltテーブルの違いへの対策が

    mojiura
    mojiura 2009/09/17
    文字の太さ(ウェイト)を変更するだけで、文字化けが発生する件。もうこうなってくると「技術」というより「努力と根性」のフィールドに突入してると思う。個人的には「努力と根性」の世界は嫌いじゃないけど。
  • 第7回 Unicodeからの多対一の変換[前編] | gihyo.jp

    文字コードが引き起こすセキュリティ上の問題として、もっとも興味深いもののひとつである、Unicodeから他の文字コードへの「多対一の変換」で引き起こされる問題点について、今回と次回で説明します。 ご存じのとおり、Unicodeには非常に多数の文字が収録されていますが(現在最新版のUnicode 5.1.0では100,713文字が収録されているそうです⁠)⁠、Unicodeから他の文字コードへの変換においては、互換性や可読性の維持のためか、複数のUnicodeの文字が他の文字コードでは単一の文字に変換されることがあります。 この「多対一」の変換が、開発者も想定していなかったような問題を引き起こす原因となることが多々あります。 具体的な例として、Windows上でのUnicodeからの変換について説明します。 Windows上でのUnicodeからShift_JISへの変換 Windows上で

    第7回 Unicodeからの多対一の変換[前編] | gihyo.jp
    mojiura
    mojiura 2009/09/14
    SQL のこととか「CON」のこととかは実はよくわかってないのですが、文字コードのところは勉強になりました。
  • InDesign CS4におけるIVSとOpenTypeタグのあやしい関係 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    InDesign CS4はUnicodeのIVS(異体字シーケンス)をサポートしている。IVSは、親字に続けてU+E0100などの特殊な文字(異体字セレクタ)を入力することで、たとえば下図のようにグリフを指定するメカニズムである。 同様のグリフ指定は、もちろんOpenTypeタグでも可能である(下図)。 では、1つの文字にIVSとOpenTypeタグで競合する指定を行ったらどうなるのだろう。U+990C「餌」を例として試してみた結果が、下図。横軸がIVS、縦軸がOpenTypeタグ。IVSの指定が顕在化しているものを青地、OpenTypeタグの指定が顕在化しているものを緑地で示した。白地は両者の指定が一致しているもの。 この例では、異体字セレクタがU+E0101またはU+E0102ならIVS優先、そうでなければOpenTypeタグ優先、というように見える。しかしInDesign CS4は、

    InDesign CS4におけるIVSとOpenTypeタグのあやしい関係 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    mojiura
    mojiura 2009/09/10
    「などと書きながら思うのだが、ここまで複雑化したものをまともに運用することが可能なのだろうか」とのこと。大賛成。
  • Emacs 23でEUC-JIS-2004: 文字符号化blog

    少し前に、Emacs 23が正式にリリースされました。 まだよく触っていないのですが、Windowsマシンにダウンロードしてみました。 設定方法がよくわからないまま適当にぐぐって (set-default-font "IPAゴシック") としてみたら、EUC-JIS-2004のテキストがちゃんと表示されました。素晴らしい。 と思ったのもつかの間、Unicodeで結合文字の必要な25文字(鼻濁音用のかきくけことか)は正しく表示できていないことが判明。何が悪いのか分かりませんががっかりです。 これでは常用することはできません。多分どこか設定すれば正しく表示できるのだと思いますが、何をどうすればいいのか見当がつきません。 ああ、Unicodeがたった25文字くらいけちけちしなければこんなことで面倒な思いをせずにすんだのに、と思わずにいられないのですが、思ってもしようがないですね。

    mojiura
    mojiura 2009/09/09
    鼻濁音の仮名など 25 文字について「ああ、Unicodeがたった25文字くらいけちけちしなければ」とのこと。たしかにおっしゃるとおりで。まあ「けち」なことをしたわけでもないとは思いますが……。
  • 〓 - Ryusei’s Notes (a.k.a. M59のブログ)

    http://d.hatena.ne.jp/mandel59/20090904/1252071738の答え 同じ名前のファイルが存在しているように見える。 これはそれぞれ 「ほげほげ.txt」(NFD、「げ」は U+3051 U+3099 というシーケンス*1) 「ほげ​ほげ.txt」(ZERO WIDTH SPACEが含まれている*2​) 「ほげほげ.txt」(NFC、「げ」は単一のコードポイント U+3052) となっている。 Mac OS X標準のファイルシステム HFS+ ではファイル名がNFDで正規化されるが*3、Linuxのファイルシステムでは正規化は行わない。 *1:結合文字シーケンスにフォントが対応していなければ「け゛」みたく表示されるかもしれない。ここでは、IPAフォントを結合文字シーケンスも表示出来るように改造したものを使っているので、「フォントを弄った」というのも

    〓 - Ryusei’s Notes (a.k.a. M59のブログ)
    mojiura
    mojiura 2009/09/07
    プログラムの実装をする人は、今後ますます大変なことになりそう。
  • アポストロフィの悩み | Okumura's Blog

    何でもいいから英語の単語に「痴」を付けてGoogleで検索してみる。例えば「he痴」でもいい。うまく見つからなければ,例えば Shakespeare痴 Got A Gun を見てみる。英語のサイトなのに何でこう「痴」が多いのか(うまく「痴」に見えないなら,ブラウザのデフォルトのエンコーディングをシフトJISにしてみてください)。 答え:Windows-1252(CP1252)のアポストロフィは 0x92 であり,これにs(0x73)が付くと 92 73 となり,これはシフトJISで「痴」になる。つまり,「He's」が「He痴」に化けるページはアポストロフィをWindows-1252でエンコーディングし,エンコーディング指定をしていないのでシフトJISで表示してしまったのである。書いた人はLatin-1(ISO 8859-1)のつもりかもしれない。 アポストロフィは '(0x27)でいいの

    mojiura
    mojiura 2009/08/31
    知りませんでした。そういうものなのでしょうか。
  • 『活字印刷の文化史』について - もじのなまえ

    このが出たのはゴールデン・ウィークの頃ですから、もう3ヵ月を過ぎますか。来であれば共著者の一人として、書を紹介し、広く勧めるべきところでした。 活字印刷の文化史 作者: 張秀民,大内田貞郎,豊島正之,鈴木広光,小宮山博史,宮坂弥代生,佐賀一郎,劉賢国,孫明遠,内田明,小形克宏,府川充男出版社/メーカー: 勉誠出版発売日: 2009/05/04メディア: 大型 クリック: 42回この商品を含むブログ (13件) を見る 書の全般的な紹介は、先日公開された、編者の小宮山博史さんの文章があります。 漢字・仮名活字の世界史的位置づけ―『活字印刷の文化史』 こうして読むと、あらためてこのの凄味といったものが分かり、またそのようなに場違いな原稿を書いてしまったのではという自責の念にとらわれます。 書収録の原稿は、昨年INTERNET Watchで連載した“情報化時代”に追いつけるか? 

    『活字印刷の文化史』について - もじのなまえ
    mojiura
    mojiura 2009/08/24
    これは読まなくては、と思った。が 10,290 円。まずは財布と相談。
  • 小塚ProのSING拡張がらみの文字化け - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    InD-Boardの「字形について」というスレッドで話題になっていた「SINGで拡張された小塚Pro」の文字化けについて、InDesign CS4と小塚明朝Pro Rで検証してみた。 再現性にあいまいさはあるが、次のように言えそうだ。SINGで拡張された小塚Pro書体において、グリフXがSING拡張分ではなく(CIDが15443以下)、なおかつグリフXの親字PがSING拡張分であり(CIDが15444以上)、なおかつ親字Pの符号位置が基多言語面の範囲外(Unicodeスカラ値が5桁)である場合、ドキュメントを保存して閉じた後に再び開くと、グリフXが親字Pに化けることがある。 わたしの環境では、字形パネルからダブルクリックで入力して(コピー&ペーストや書体の変更などをせずに)すぐに保存し開き直した場合、前項の条件を満たすものは100%化けた*1。 下図は、化ける文字のリスト*2。グレー枠の

    小塚ProのSING拡張がらみの文字化け - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    mojiura
    mojiura 2009/07/24
    引用→「ドキュメントを開いたとき、最初に本来のグリフが見えた後にワンテンポ遅れてぐにゃりと化ける様子は、微笑を誘う」
  • CMapの違いについての資料を作った - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    「日語OpenTypeフォントの分裂の歴史」では、CMapの差異が生まれていく流れを描いた。では、それぞれのCMapは具体的にどう違うのか。という話は、このブログのどこかに書いてはあるのだが、散在していて参照しにくい。 で、PDFにまとめてみた。 以下追記。最新版はこちら(diff_cmap_20120906.pdf)。旧版は削除した。

    CMapの違いについての資料を作った - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    mojiura
    mojiura 2009/07/24
    すばらしい資料!
  • examples / CJKV Information Processing 2nd Edition · GitLab

    mojiura
    mojiura 2009/07/14
    CJKV 付録。E Vendor Character Set Standards、F Vendor Encoding Methods、G Chinese Character Sets.China、H Chinese Character Sets.Taiwan、I Chinese Character Sets.Hong Kong、J Japanese Character Sets、K Korean Character Sets、L Vietnamese Character Sets、M Miscellaneous Character Sets
  • Microsoftが総括「Windows Vistaにフォントの混乱なし」 - もじのなまえ

    あまり時間がないので短くご報告。 Microsoftの「Windows 7向けJIS90互換フォントパッケージの提供と今後について」記者説明会に行ってきました。これについてはプレスリリースも出ています。 Windows(R) 7 向け JIS90 互換フォントパッケージの提供 より詳しくはINTERNET Watchの記事などをご参照ください。 マイクロソフト、JIS90互換フォントの提供はWindows 7で最後 細部は記事にゆずるとして、ぼくが重要だと思ったことは以下の点です。 Windows Vistaによるフォント変更について、同社コールセンターに対し、クレームの電話は1件もかかってきていない。 Microsoftは(今のところ)この件について、ユーザーに大きな混乱は発生しなかったと考えている。 Windows Vistaでフォント・デザインが変更されたことについては、2006年に

    Microsoftが総括「Windows Vistaにフォントの混乱なし」 - もじのなまえ
    mojiura
    mojiura 2009/07/14
    「文字な人=MS の助けなんて不要(むしろ邪魔)な人」と「文字を気にしない人=問題があるとは思ってない人」との二極化。実は、細かな点画を気にしない後者の人のほうが「正しい」文字意識を持ってるのかも。
  • 日本語OpenTypeフォントの分裂の歴史 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    CMapの系統図を描いてみた。 上図左上、源流となっているUniJIS-UCS2は、Adobe-Japan1-4(AJ14)をレパートリとするCMapである。 Appleは、2001年9月リリースのMac OS X 10.1でApple Publishing Glyph Set(APGS)を投入し、JIS X 0213:2000をサポートした。APGSはレパートリとしてはAJ14のスーパーセットだが、主にJIS X 0213との整合性を高めるために、既存のマッピングに変更が加えられている。 2002年9月、AdobeはAPGSを追認する形でAdobe-Japan1-5(AJ15)を策定したが、Appleによるマッピング変更の一部(主としてプロポーショナル・グリフの採用)には追随しなかった。このためAJ15以降のCMapには、Apple用のもの(UniJISX0213系)とそれ以外(UniJ

    日本語OpenTypeフォントの分裂の歴史 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    mojiura
    mojiura 2009/07/14
    素晴らしい資料。そろそろ詳細まで全部把握したうえで関係者(DTP・編集・校正)全員に周知徹底するのは不可能なのかも。「全部見て直す」と割り切るか、(おそらく非常に高価な)チェックツールを作るか、二択?
  • CJKV Information Processing の Appendix の一部のPDF - しろもじメモランダム

    CJKV Information Processing: Chinese, Japanese, Korean, and Vietnamese Computing 作者: Ken Lunde出版社/メーカー: O'Reilly Media発売日: 2009/01/08メディア: ペーパーバック クリック: 6回この商品を含むブログ (11件) を見る 昨年末に第2版が出た CJKV Information Processing*1 ですが、その Appendix の一部がPDFで公開されているようです。特に制限もかけられていないので、テキストのコピーも可能。 http://examples.oreilly.com/9780596514471/ ただし、PDFの頭にこう書かれているとおり、 This appendix is not included in the printed version

    CJKV Information Processing の Appendix の一部のPDF - しろもじメモランダム
    mojiura
    mojiura 2009/07/13
    すごい。付録 J が Japanese で、K が Korean で、M が Miscellaneous なのは、なにか意図的なものなのでしょうか。気になる気になる、気にしても仕方ない。
  • キャラクターのコード化 - 日本語練習虫

    文字コードって何だらう。文字コードってやつが扱ってる「文字」ってモノに色々と性格が異なる「キャラクター(文字)」が混ざって集まってるおかげで、ある「キャラクター」については正しい説明であるように見えることが、他の「キャラクター」には当てはまらない、といふことが往々にして存在する。 さて、改めて、「文字コード」って何だらう。 Letter、Number、Mark、Ideograph、Symbolなど、様々な「キャラクター」を一堂に会して大きな「キャラクター」の集合をつくり、各々の差異を記述し番号と名前をつける。場合によっては一定の規則の元に、ある特徴を共有するキャラクター群にチームとしての名をつけることもある。何のためにそんな「キャラクターの集合」をつくって番号を振るか? 現代人の日常生活に必要な情報交換を円滑に行ふために。 ――ざっくり言ふと、さうして集められ名づけられ番号づけられたキャラ

    キャラクターのコード化 - 日本語練習虫
    mojiura
    mojiura 2009/07/13
    青空文庫の「ケヶ問題」の話題。本質があるように感じます。でも、私も芝野先生の講演は聴いてないので、ここでどうこう言っても仕方ないのですが。
  • Macの外字の歴史を整理してみる - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    1989年、Appleは漢字Talk 6をリリースし、また、初の日語対応PostScriptプリンタであるApple LaserWriter II NTX-Jを発売した。NTX-Jに搭載されていた日フォントは、モリサワのリュウミンL-KLと中ゴシックBBB。 プリンタ・フォントであるリュウミンL-KLと中ゴシックBBBの文字セットとエンコーディングは、Adobeによって83pv-RKSJ(以下単に「83pv」と呼ぶ)*1として定義されており、その外字部分(下図・左)は、NECPC98外字のサブセットとなっていた。 リュウミンL-KLと中ゴシックBBBに対応するスクリーン・フォントとしてAppleから提供されたのが、細明朝体と中ゴシック体。漢字Talk 6.0.7でForeign System Fontをインストールすると、上図青地部分を画面表示することができた。 上図ピンク地部分の

    Macの外字の歴史を整理してみる - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    mojiura
    mojiura 2009/06/09
    Mac を手元に持ってないので、Mac の機種依存文字に関する資料はとても嬉しいです。
  • デジタル放送における データ放送符号化方式と伝送方式(PDF)

    mojiura
    mojiura 2009/05/20
    ARIB の規格の、記号類を定めたページ。ARIB の規格がウェブに載ってるとは知りませんでした。
  • M+ LOG

    mojiura
    mojiura 2009/03/12
    これを読むまで新 JIS マークのことを知らなかった文字裏太郎。
  • Googleが携帯電話の絵文字をUnicodeに提案 - もじのなまえ

    漢字小委員会の模様について、たくさんの皆さんに興味を示していただいたようでありがとうございます。つづきは時間を見て書きます。まだ皆さんにお知らせしなければならないことは残っている。 今回はまた別のお話。国際化の世界でよく知られているエンジニア、風間一洋さんのブログで「携帯の絵文字のUnicodeへの収録」というエントリが公開されました。これによると、Googleが携帯電話の絵文字をUnicodeに提案しようとしているそうです*1。 Emoji for Unicode: Open Source Data for the Encoding Proposal 非常に興味深い動きです。このエントリでは「もうすぐ日語訳(?)を公開するそうである」とされていましたが、すでに公開されています。仕事が早い。 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ ご存知のように、携帯電話での絵文

    Googleが携帯電話の絵文字をUnicodeに提案 - もじのなまえ
  • その8:まとめ (明朝体・考)

    以上,『表外漢字字体表』例字字形に関して考察した。これをまとめれば,例字文字は平成明朝体を採用した。『表外漢字字体表』建前としては,『常用漢字表』を引き継ぎ,デザイン差について,きわめて広範囲に定義しているように見える。しかしその一方,デザインレベルで標準の平成明朝体の字形を変更した。この字体表は「印刷標準字体」としての性格を持ち,したがって字形の細部まで関心が集まるにも関わらず,その理由については,同字体表上でまったく触れられていない。さらに,この変更された差異が「印刷標準字体」としての拘束条件になるかのような誤解を助長する可能性がある。すでに,この字形に引きずられた字形デザインを行った漢和辞典が出現している。といったところであろう。しかし,この変更によってデザイン統一がなされ,模範的な例字字形を提供したのであれば納得もできる。だが実態はそうでもないのである。 『表外漢字字体表』には「

    mojiura
    mojiura 2008/02/26
    「字体差とデザイン差の違いぐらい分けて考える智恵をつけてもらいたい」とある。でも、何年も研究している人たちですら「間違い」を犯し続けているわけで、そんな簡単な提案で解決するような問題じゃないと思う。