タグ

IVSに関するworks014のブックマーク (115)

  • 汎用電子の「FT」とか「HG」とかって何? - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    汎用電子の異体字データベース(IVD)登録にともなう公開レビュー(PRI 167)のドラフト(IVS-0322.pdf)を見ていると、「IA0204」といったグリフ名の、先頭の2文字の意味が気になってくる。すぐに見当がつくものもあるのだけれど、いくら考えてもわからないものもある。 で、図書館に行って調べてきた。「汎用電子情報交換環境整備プログラム成果報告書」(2003.3)をもとにして、今回のドラフトに出てくるものをまとめたのが、下図。 このうち住基統一文字(JT)と戸籍統一文字(KS)以外は、汎用電子プロジェクト以前から平成明朝体に存在したグリフ。黄色地のものについては、これだけを見てもわからないと思うので一応説明を試みるが、わたしもよくわかっていないので、説明を読んでもすっきりしないかもしれない。 「FT」は、「報告書」によると「文字フォント開発・普及センター*1の平成明朝体開発委員会

    汎用電子の「FT」とか「HG」とかって何? - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • U+90F7 U+E0101というIVS | yasuokaの日記 | スラド

    Ken Lundeとも話したのだが、Adobe-Japan1のCID+13725を「U+90F7 U+E0101」というIVSで表現したのは、やはりまずかったように思う。もちろん、CID+13725は「郷」(U+90F7)の異体字なのは間違いないが、でも「鄕」(U+9115)の方が親字として適切だったと思うのだ。この問題が極端な形で現れたのが、今回のPRI 167のIP9115なのだが、このあたりに関して、私の知る限りのところを記しておこうと思う。 このIP9115のグリフは、元々、日規格協会の文字フォント開発・普及センターが平成7年度事業として、情報処理振興事業協会(IPA)からの請負委託により、平成明朝体W3の一部としてデザインしたものだ。この事業は、JIS X 0221-1995のJAPANESE IDEOGRAPHICS SUPPLEMENT 3の中で大漢和辞典に収録されている漢

    works014
    works014 2010/04/15
  • 汎用電子の「邉」とAdobe-Japan1の「邉」 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    汎用電子情報交換環境整備プログラムの異体字データベース(IVD)登録にともなう公開レビューがはじまっている。 登録候補のリストを見ると、バリアントがいちばん多いのが「邉(U+9089)」で、15文字。先行してIVDに登録されているAdobe-Japan1における「邉」のバリアントの数と、まったく同じ。となると、汎用電子の15の「邉」とAdobe-Japan1の15の「邉」がどの程度一致するのか、気になるところである。で、確かめてみた。下図青枠がAdobe-Japan1、赤枠が汎用電子のグリフで、寄り添って並んでいるのが一致するもの。 各15文字中、7文字が一致。この数を、多いと見るか少ないと見るか。ちなみに、Adobe-Japan1では、考えうるパーツ(下図、グレー枠)の組み合わせは(数え方によって変わってくるだろうけれど)96種類。汎用電子では、これに加えて赤枠のパーツも区別される可能性

    汎用電子の「邉」とAdobe-Japan1の「邉」 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • U+7F50 U+E0101というIVS | yasuokaの日記 | スラド

    人名用漢字の新字旧字「缶」と「罐」の読者から、「罐」の簡易字体(Adobe-Japan1のCID=14187)に関して質問があった。確かにこの漢字のIVS「U+7F50 U+E0101」は、かなりマズイものの一つだ。 この簡易字体が「罐」(U+7F50)の異体字なのは確かだが、だからと言ってIVSで表現するのはスジが悪くて、やはりU+9FCCあたりに追加すべきだったと思う。「權・灌・勸・歡・觀」と「権・潅・勧・歓・観」はCJKにおいて分離されているのだから、「罐」とその簡易字体だけをIVSで扱わなければならないのは、かなりおかしな状態だ。しかし、CID=14187は「U+7F50 U+E0101」となってしまったため、CJK Extension Dにすら収録されそうにない。 ただ、こういう恣意的なIVSの追加が増えると、結局、全く同じ字体が別字のIVSとしてどんどん追加される、という事態を

    works014
    works014 2010/04/03
    _「權・灌・勸・歡・觀」と「権・潅・勧・歓・観」はCJKにおいて分離されているのだから、「罐」とその簡易字体だけをIVSで扱わなければならないのは、かなりおかしな状態だ
  • 戸籍統一文字のIVS化 | yasuokaの日記 | スラド

    汎用電子情報交換環境整備プログラムのIVS化に対する登録レビューがちゃんと昨年度中に始まった、という連絡をいただいた。以前、日経ITproの「漢字1文字が最大8バイト、Unicodeの「IVS」とは?」でも書いたが、日はJTC1/SC2/WG2/N3530で戸籍統一文字や住民基台帳文字なんかをISO/IEC 10646に追加要求している。でも、互換漢字での追加は、やっぱりブが悪そうなので、IVSによる追加も模索しているわけだ。 ただ、現状のドラフトは、ギリギリ昨年度内に仕上げたものなので、実はかなり問題がある。たとえば、JTFA2A「飯」は、来U+98EFの異体字として登録されるべきなのだが、ドラフトからは抜け落ちている。JTFA2B「飼」やIB0457「館」も、それぞれU+98FCとU+9928の異体字なのだが、やはり載っていない。端的に言えば、『汎用電子情報交換環境整備プログラム

  • IVS Support: The Current Status and the Next Steps

    CJK Type Blog CJK Fonts, Character Sets & Encodings. All CJK. #AllOfTheTime. Chinese Dr.Ken Lunde For those who are not aware, IVSes (Ideographic Variation Sequences) are a standardized Unicode mechanism for representing otherwise unencoded variant forms of CJK Unified Ideographs using “plain text,” specifically via a sequence of a Base Character (aka, a CJK Unified Ideograph) followed by a Variat

    works014
    works014 2010/02/11
  • SVGフォントでIVSを表示するテスト - Ryusei’s Notes (a.k.a. M59のブログ)

    SVGフォントでIVSが表示できれば幸せになれるんじゃないか。 手順 1. IVS対応フォントの入手 とりあえずテストのためグループ:IVSテスト - GlyphWikiを使う。 2. FontForgeでSVGフォントの出力 ダウンロードしたttfフォントを開いてSVGフォントとして出力、で済めばよかったのだけれども、使っているfontforge 20090923だと修正が必要みたい。 具体的には 「<glyph glyph-name="u10C000" unicode="&#x4e08;" unicode="&#xe0100;" 」と出力されているので(たぶんバグ)、「<glyph glyph-name="u10C000" unicode="&#x4e08;&#xe0100;" 」に修正。「;" unicode="」を「;」に置き換えする。 「<svg>」を「<svg xmlns="h

    SVGフォントでIVSを表示するテスト - Ryusei’s Notes (a.k.a. M59のブログ)
  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
  • Snow Leopardの目玉がIVSであるらしい件 - 日本語練習虫

    しろもじさんの所でSnow Leopardが世界初のIVS対応OSだと知り、 http://d.hatena.ne.jp/mashabow/20090831 Mac OS X 10.6 "Snow Leopard"上のSafari 4で http://d.hatena.ne.jp/uakira/20090206 ば眺めてみたんだども―― ――試験方法が悪かったんだらうか、依然としてトウフにしか見えねぇ。

    Snow Leopardの目玉がIVSであるらしい件 - 日本語練習虫
  • InDesignでIVSが扱いにくい理由 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    異体字セレクタ(Variation Selector)は、人から渡されたプレーン・テキストの原稿に含まれている可能性がある。 異体字セレクタは、見えない。 異体字セレクタの効果は、フォントに依存する。 親字と異体字セレクタの並び(IVS)は、テキストエディットやJedit Xでは1文字として扱われるが、InDesignでは2文字として扱われるため、親字と異体字セレクタの間に文字を挿入できてしまう。 InDesignでは異体字セレクタは「幅のない文字」として扱われるため、カーソルが異体字セレクタの前(IVSの中)にあるのか後(IVSの外)にあるのかは、見ただけではわからない。 InDesignでテキスト中に漢字を挿入したとき、潜在していた異体字セレクタと結びついてIVSを構成し、字体が変わる可能性がある。 異体字セレクタとOpenTypeタグによるグリフ指定が競合あるいは重複した場合、挙動を

    InDesignでIVSが扱いにくい理由 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • IVSとaaltタグの競合や重複 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    InDesign CS4で、IVS(異体字シーケンス)によるグリフ指定とOpenTypeのaaltタグによるグリフ指定が競合あるいは重複した場合の挙動について。 U+7953「祓」を例にすると、IVSとaaltタグは下図のように機能する。 では、これらが競合・重複した場合は、どうなるのか。下図は横軸が異体字セレクタ、縦軸がaaltタグ。左の列(青地)は異体字セレクタのみを適用したもの、緑地はaaltタグの指定にしたがったグリフが表示されているもの、赤地はIVSによる指定ともaaltタグによる指定とも異なるグリフが表示されているもの。 前回のエントリで見たように、aalt以外のタグがIVSと競合した場合、結果的にどちらか一方の指定が顕在化する。しかしaaltタグとIVSが競合あるいは重複した場合、どちらの指定とも異なるグリフに「化ける」場合がある。 ロジックとしては(前回のエントリで取り上げ

    IVSとaaltタグの競合や重複 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    works014
    works014 2009/09/10
    「IVSの指示にしたがった置換を行い、その結果に対してさらにaaltタグを適用している」
  • InDesign CS4におけるIVSとOpenTypeタグのあやしい関係 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    InDesign CS4はUnicodeのIVS(異体字シーケンス)をサポートしている。IVSは、親字に続けてU+E0100などの特殊な文字(異体字セレクタ)を入力することで、たとえば下図のようにグリフを指定するメカニズムである。 同様のグリフ指定は、もちろんOpenTypeタグでも可能である(下図)。 では、1つの文字にIVSとOpenTypeタグで競合する指定を行ったらどうなるのだろう。U+990C「餌」を例として試してみた結果が、下図。横軸がIVS、縦軸がOpenTypeタグ。IVSの指定が顕在化しているものを青地、OpenTypeタグの指定が顕在化しているものを緑地で示した。白地は両者の指定が一致しているもの。 この例では、異体字セレクタがU+E0101またはU+E0102ならIVS優先、そうでなければOpenTypeタグ優先、というように見える。しかしInDesign CS4は、

    InDesign CS4におけるIVSとOpenTypeタグのあやしい関係 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    works014
    works014 2009/09/10
    「IVSの指示にしたがった置換を行い、その結果に対してさらにOpenTypeタグを適用」
  • Snow LeopardのIVS対応 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    Apple Storeに立ち寄って買ってきたMac OS X 10.6 Snow Leopardを、仕事用のマシンにちゃらちゃらと上書きインストール。で、mashabowさん(しろもじメモランダム)のエントリ「Snow LeopardはIVSに対応しているらしい」の件について確認してみた。 テキストエディット*1とIVS対応フォント(手元にあるものでは、小塚明朝Pr6N、小塚ゴシックPr6N、花園明朝OT xProN)の組み合わせでは、異体字セレクタによってグリフが変化するのを見ることができる。IVSはクリップボード経由でコピー、ペーストすることが可能。 Snow Leopardに付属するヒラギノのバージョンはLeopardのそれと変わっておらず、IVSをサポートしていない。ファイル名中にIVSを含めることは可能だが、Finderで漢字を表示するフォントがヒラギノである限り、異体字セレクタ

    Snow LeopardのIVS対応 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • Snow LeopardはIVSに対応しているらしい - しろもじメモランダム

    Ken Lunde 曰く、 Finally. Yesterday, Friday, August 28th, 2009 is significant, at least for me, in that it represents the release date for Mac OS X Version 10.6 (aka, Snow Leopard). What is important about Snow Leopard is that it is the first OS that provides built-in support for IVSes (Ideographic Variation Sequences). Up until now, IVSes had been supported in specific Adobe products, such as Acroba

    Snow LeopardはIVSに対応しているらしい - しろもじメモランダム
  • 異体字セレクタ - Wikipedia

    異体字セレクタを付けない場合、点のある字体と点のない字体は区別されない。VS(異体字セレクタ)17を付けると点のない字体、VS18を付けると点のある字体を表す。 異体字セレクタ[注 1] [注 2] (いたいじセレクタ、英: Variation Selectors) は、Unicode および ISO/IEC 10646 (UCS) における、文字の字体をより詳細に指定するためのセレクタ (選択子) である。 Unicodeでは抽象的な文字を定め、個々の文字の字形の詳細には立ち入らない。このため同じ意味で似た形の文字には同じ電子的な表現が与えられ、字形の区別が必要なときはフォントの指定などによって行うのが原則である[1][注 3]。 この原則は、たとえばラテン文字の 'a' で、上部の右から左へ伸びる線があるかどうか、という違いは通常は「フォントの違い」であり「別の字」とはしないためほとん

    異体字セレクタ - Wikipedia