タグ

ivsとunicodeに関するmasakielastic2のブックマーク (16)

  • IVSと正規化について

    小形克宏 @ogwata Java 6はIVSを無視(ignore)しない。「Java 6 でIVSを比較すると何が起こるか」yanok.net http://yanok.net/2011/01/java-6-ivs.html

    IVSと正規化について
  • Welcome to nginx!

    If you see this page, the nginx web server is successfully installed and working. Further configuration is required. For online documentation and support please refer to nginx.org. Commercial support is available at nginx.com. Thank you for using nginx.

  • この「邉」を作ったのは誰だぁ!! - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)のなかで、目玉がWindows 8のIVS対応を紹介している第2章だとするなら、背骨といえるのが、IVSという枠組み自体について解説している第5章だよね。 たとえがしっくりきませんが、こだわらずに先に進みましょう。 その第5章のなかでも、IVSの基中の基をわずか1行に凝縮して視覚化しているのが、図5-7だ。 はいはい。 で、今日は図5-7に突っ込んでみようと。 もちろん、突っ込みますよー! あのさ、そういうテンションいらないから。この図なんだけど、どう? んー、解説抜きで見せられても、ちょっと難しいですね。 いや、当は難しくないんだよ。「漢字に異体字セレクタを付けるとグリフを指定できます」って言ってるだけの図なんだから。 この真ん中の「E010B」が右では「E0110」に変化してるのは、どういう意味なんですか? 誤植だね。

    この「邉」を作ったのは誰だぁ!! - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)を読んでいたら、いくつか気になる点があったので、まとめてみることにした。とりあえず、第4章(37ページ分)だけ。時間と気力があれば、今後、他も追加していくかも*1。組版上の突っ込みは(ひどい例以外は)省いた*2。 p.103 ISO/IEC 8859は《中略》パート16まで定義されています(パート15は破棄)。 破棄されたのはパート12。 p.104 「ISO-10646」の文字集合 「ISO-10646」→「ISO/IEC 10646」。 たとえば、1面19区75点を符号位置とする文字をシフトJISで8ビット符号化した場合0x8A6Bとなる文字を例に見てみましょう。この文字は、葛飾区の「葛」という文字ですが 「葛」はシフトJISで「0x8A6B」ではなく「0x8A8B」。 p.106 「U+000000」→「U+0000」(U

    『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 花園明朝OT+Web フォントによるIVSと OpenType feature tag の表示テスト - しろもじメモランダム

    ブラウザ上で異体字を表示するには、2つの方法がある。異体字セレクタを使ってIVSで異体字を表現する方法と、CSS3の font-feature-settings プロパティを使って OpenType feature tag によるグリフ置換をする方法だ。今回、花園明朝OTを Web フォントとして利用し、この2つの方法で異体字の表示テストを行った。 方法の具体的な解説 IVSによる方法 IVS(Ideographic Variation Sequence)は親字(基底文字)にVS(Variation Selector; U+E0100–U+E01EF)をつけて異体字を表現する。詳しくは下の Wikipedia の記事などを参照。 異体字セレクタ - Wikipedia この方法で表現される異体字は、基底文字の包摂範囲内に含まれることになっている。プレーンテキストとして扱えるので、HTML

    花園明朝OT+Web フォントによるIVSと OpenType feature tag の表示テスト - しろもじメモランダム
  • 正規化・互換漢字・IVS

    Koji Ishii @kojiishi OS、アプリ、IMEにきれいに入ればユーザーに対して透明にできると思うんですが、今のIVSだとこれらの層との協調が悪くて、それを解決しないと難しいな、と @0guma 私の周囲3m内外でも、その技術を誰も使いこなせないだろうな、と思える辺り、如何ともし難い @ogwata 2011-06-08 15:50:53 tomo.(むにゃむにゃ) @MnjaMnia (既存の IVD よりも荒い)字体/抽象グリフレベルの IVD(ないしは、そういう風な運用)は現実問題として必要だと思うんだけども(だから、私も細々と試行錯誤してる訳だけども)、現実問題としてなかなか難しそうなのも事実なんだよなぁ。 2011-06-08 20:24:52 Kiyonori Nagasaki @knagasaki おお! RT @MnjaMnia: 理想的なグリフオントロジーを

    正規化・互換漢字・IVS
  • “情報化時代”に追いつけるか? 審議が進む「新常用漢字表(仮)」: 第2部 新常用漢字表と文字コード規格第8回 インターネット時代と互換漢字

    ● 国際化ドメイン名で互換漢字が使えない理由 Unicode正規化が規格に盛り込まれている例として、国際化ドメイン名(IDN)が挙げられるだろう。ドメイン名はいわばインターネット上の番地表示だが、従来はラテン文字のaからz(大文字/小文字は区別しない)、数字の0から9、それにハイフン「-」の計37文字だけに限定されていた。国際化ドメイン名とは、これをUnicodeの範囲に拡大し、それにより世界の人々が自分の使っている言語でドメイン名を表現できるようにしようとするものだ。具体的にはインターネットの規格であるRFC 3490~3492の3つで規定されている。 ここでは「Punycode」(RFC 3491[*1])と呼ばれる一定の規則に従って、Unicodeの文字列を現在使われている37文字に変換することにより国際化ドメイン名が実現されている。しかしこの変換をする前に「Nameprep」(RF

  • 「Java 6 でIVSを比較すると何が起こるか」の記事の誤り(続編) - Cafe Babe

    先日のエントリで「ざっとチェックした限りでは,それらにはまだIVSがらみの変更はないようだが,もし見落としがあれば教えて頂きたい」と書いておいたら,さっそく仕様書に記述はないが,Unicode DatabaseのDUCET(Default Unicode Collation Element Table)はすでに変更されていると指摘して頂いた.どうもありがとう. DUCETをチェックしなかったのは,「Unicode Collation Algorithm」でjava.text.Collatorクラスとjava.text.RuleBasedCollatorクラスが引用されているように,Mark Davisがjava.textパッケージの設計に直接関わっていて,Unicode Databaseがそのままjava.textパッケージに使われていると思っていたからだが,指摘されて実はjava.tex

    「Java 6 でIVSを比較すると何が起こるか」の記事の誤り(続編) - Cafe Babe
  • 「Java 6 でIVSを比較すると何が起こるか」の記事の誤り - Cafe Babe

    以下の記事に誤りが散見されるが,それが広まるのは望ましくないので,ここで誤りを指摘しておく. 「Java 6 でIVSを比較すると何が起こるか」(yanok.net) まず,Javaの文字列の同一性判定の話である. これは想像通りですね。単にcharの列を比較しただけの結果になっています。つまり、見た目の区別がつかなくても容赦なく別々の文字列として扱っています。これが何をもたらすかというと、Stringクラスで比較しているプログラムに対しては、"与" と "与[0E0100]" と "与[0E0102]" を、見た目の区別がないにもかかわらず、人が入力し分けてやらないと困ることになるということです。 Java言語でUnicode文字列が同一性を判定するには,いくつかの方法がある. java.lang.String#equals()…単なるUnicode文字シーケンスの同一性を判定する ja

    「Java 6 でIVSを比較すると何が起こるか」の記事の誤り - Cafe Babe
  • 日本の文字とUnicode 第6回 | 大修館書店 WEB国語教室

    現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日語に特化して作られたわけではないので、日の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、第4回・第5回に引き続き、第6回も、漢字とUnicodeの関係です。 まずは「晴」(U+6674)のIVSを見てみましょう。 何だか妙な感じですね。同じ「晴」が<U+6674 U+E0100>と<U+6674 U+E0103>に、同じ「晴」が<U+6674 U+E0101>と<U+6674 U+E0102>に、それぞれダブって収録されているように見えます。実際そうなのです

  • UTS #37: Unicode Ideographic Variation Database

    Summary This document describes the organization of the Ideographic Variation Database, and the procedure to add sequences to that database. Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a stable document and may be used as reference material or cited as a normative reference by other

  • DUOクレンジングバームを購入できるツルハまとめ

    DUOクレンジングバームを購入できるツルハまとめツルハドラッグ 店舗 DUO ザ クレンジングバームのお買い物はご近所のツルハで! DUO ザ クレンジングバーム ▼毎月20%OFFはこちらから▼ ショップで購入する前に DUO ザ クレンジングバームを販売しているお店は、全国で10000件以上もあります。 ドラッグストアがその大半を占めているのですが、ツルハだけでも約1300件以上あるようです。 ということは、全国のDUOクレンジングバームを購入できるお店の約13%ぐらいがツルハドラッグですので、さすが大手のドラッグストア、凄いですね。 実は、ツルハの公式サイトの店舗数とDUOの公式サイトから抽出した数がピッタリ合いません。 調査したタイミングで数値に変動がありますし、どちらの公式サイトも店舗増減の修正が追いついてないことも考えられます。 さらに、当サイトの集計に間違いがあるかもしれませ

    DUOクレンジングバームを購入できるツルハまとめ
  • 異体字セレクタ - Wikipedia

    異体字セレクタを付けない場合、点のある字体と点のない字体は区別されない。VS(異体字セレクタ)17を付けると点のない字体、VS18を付けると点のある字体を表す。 異体字セレクタ[注 1] [注 2] (いたいじセレクタ、英: Variation Selectors) は、Unicode および ISO/IEC 10646 (UCS) における、文字の字体をより詳細に指定するためのセレクタ (選択子) である。 Unicodeでは抽象的な文字を定め、個々の文字の字形の詳細には立ち入らない。このため同じ意味で似た形の文字には同じ電子的な表現が与えられ、字形の区別が必要なときはフォントの指定などによって行うのが原則である[1][注 3]。 この原則は、たとえばラテン文字の 'a' で、上部の右から左へ伸びる線があるかどうか、という違いは通常は「フォントの違い」であり「別の字」とはしないためほとん

    異体字セレクタ - Wikipedia
  • IVSとフォントの関係 - ちくちく日記

    先日、飲み会の席で、フォントに詳しい人と、フォントメーカーの人と一緒のテーブルになった。 で、なんでそんな話になったのかは忘れたんだけどそのテーブル、酒を飲みながら、UnicodeだのAdobe JapanだのIVSだのの単語が飛び交うという、ちょっとまぁ、それどうなの、酒飲みながらする話なのというようなテーブルになってしまって、一緒に飲んでいたその他大勢の皆様をどん引きさせてしまってたのですが、個人的にはそこでの話が大変面白かったので、忘れないうちに書いておこうと思う。 テーブルでは主にIVSについて、いまいちわかっていない素人(私)が「IVSって、私たちのDTP業務で使うフォントにどう関係してくるの?」っていうのを、詳しい人やら、フォントメーカーの人に解説してもらってたのだけど。 私「IVS(Ideographic Variation Sequence)って最近ちらほら耳にするんだけど

    IVSとフォントの関係 - ちくちく日記
  • UnicodeのIVSがもたらすメリットとデメリット

    UnicodeのIVS(Ideographic Variation Sequence)は、漢字を表すUnicodeの直後に Variation Selectorと呼ばれるコードを付加し、漢字の「異体字」を表現する方法だ。IVSによって、従来よりも多くの字体が利用可能になる反面、データの「名寄せ」が困難になる恐れもある。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、IVSの利点と懸念すべきポイントを解説する。(日経コンピュータ) 筆者がITproに「漢字1文字が最大8バイト、Unicodeの「IVS」とは?」を寄稿してから約1年が経って、IVSに新たな動きがあった。常用漢字表の改正(2010年11月30日)に前後して、4195字のIVSが追加されると同時に、IVS技術促進協議会が発足したのだ。IVSの拡大によって、これまでフォント切り換えでしか

    UnicodeのIVSがもたらすメリットとデメリット
  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
  • 1