タグ

text processingに関するfubar_fooのブックマーク (10)

  • UnicodeのIVSがもたらすメリットとデメリット

    UnicodeのIVS(Ideographic Variation Sequence)は、漢字を表すUnicodeの直後に Variation Selectorと呼ばれるコードを付加し、漢字の「異体字」を表現する方法だ。IVSによって、従来よりも多くの字体が利用可能になる反面、データの「名寄せ」が困難になる恐れもある。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、IVSの利点と懸念すべきポイントを解説する。(日経コンピュータ) 筆者がITproに「漢字1文字が最大8バイト、Unicodeの「IVS」とは?」を寄稿してから約1年が経って、IVSに新たな動きがあった。常用漢字表の改正(2010年11月30日)に前後して、4195字のIVSが追加されると同時に、IVS技術促進協議会が発足したのだ。IVSの拡大によって、これまでフォント切り換えでしか

    UnicodeのIVSがもたらすメリットとデメリット
  • IVSとGSUBはどう違うのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    異体字シーケンス(IVS)の特徴について、OpenTypeフィーチャのグリフ置換(GSUB)と比較しながら考えてみた。重要だと思われる点をメモしたものであり、IVSの体系的な説明ではない。 IVSは文字コードのレベルの枠組みなので、異体字の情報をプレーンテキストで交換できる。この最大の特徴に加え、GSUBよりも新しい分、よりすっきりとした論理的な仕組みになっている*1。 IVSの概念は、下図のようなかんじ。符号位置に包摂される複数のグリフ(集合)のなかから、ある特定のグリフ(集合)をVSによって指定する、というイメージ*2。 上図はUnicodeの視点から描いたものだが、Adobe-Japan1フォントではデフォルトのグリフはcmapで指定されているので、実装としては下図のようなかんじ。IVSでは、原則として基底文字(親字)の包摂範囲を超えたグリフは指定できないので、VSを付けることによっ

    IVSとGSUBはどう違うのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    fubar_foo
    fubar_foo 2012/02/08
    異体字セレクタとグリフフィーチャ
  • IVSとaaltタグの競合や重複 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    InDesign CS4で、IVS(異体字シーケンス)によるグリフ指定とOpenTypeのaaltタグによるグリフ指定が競合あるいは重複した場合の挙動について。 U+7953「祓」を例にすると、IVSとaaltタグは下図のように機能する。 では、これらが競合・重複した場合は、どうなるのか。下図は横軸が異体字セレクタ、縦軸がaaltタグ。左の列(青地)は異体字セレクタのみを適用したもの、緑地はaaltタグの指定にしたがったグリフが表示されているもの、赤地はIVSによる指定ともaaltタグによる指定とも異なるグリフが表示されているもの。 前回のエントリで見たように、aalt以外のタグがIVSと競合した場合、結果的にどちらか一方の指定が顕在化する。しかしaaltタグとIVSが競合あるいは重複した場合、どちらの指定とも異なるグリフに「化ける」場合がある。 ロジックとしては(前回のエントリで取り上げ

    IVSとaaltタグの競合や重複 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    fubar_foo
    fubar_foo 2012/02/08
    IVS(異体字セレクタ)とaaltタグ(グリフフィーチャ)を両方指定した場合どうなるか.無駄にややこしい.
  • 日本語と文字コード

    コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト(7/8ビット)を基単位として扱う前提で作られているものが中心です。そのなかで日語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日語の文字コードに関する基を整理しておきます。 JIS漢字コード(情報交換用符号化漢字集合) 区点コード JISコード(符号化方式) シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ 参考文献、リソース 文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード(情報交換用符号

  • Unicode―文字コード入門―

    Unicodeとは 多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みである文字コードも、その国の数だけ増えていく状態であり、情報交換のために様々な不都合が生ずるようになってきました。また、企業の側でも各国個別の言語に合わせたソフトウェアを開発するためには膨大なコストが必要なため、これを解消する手段が求められるようになってきたのです。 そこでこの問題を解消すべく、IBM、MicrosoftApple等が加盟(他のメンバーについてはこちらを参照)するNGOであるUnicodeコンソーシアムが中心となって、全ての文字を16ビット(65536文字)に収録してしまおうという、野心的な多重言語文字セット規格の制定を企図していました。またそれとは別に、国際標準化機構(ISO)が、世界中の主要な文字を一括して扱う多重言語文字セット規格を開発していました。国際規格が複数制定される

  • http://www.asahi-net.or.jp/~ax2s-kmtn/character/japan.html

  • JIS漢字とUCS (Unicode)の文字の対応・変換について

    セント記号 JIS漢字のセント記号(¢)はCENT SIGNである。対応するUCSのコードポイン トはU+00A2である。 ところが、これをUCSのFULLWIDTH CENT SIGNに変換するものがある。ASCII にもJIS X 0201にもセント記号はないので、これが「FULLWIDTH」になる理由 はない。従ってこの変換は不適切である。 ポンド記号 JIS漢字のポンド記号(£)はPOUND SIGNである。対応するUCSのコードポ イントはU+00A3である。 ところが、これをUCSのFULLWIDTH POUND SIGNに変換するものがある。 ASCIIにもJIS X 0201にもポンド記号はないので、これが「FULLWIDTH」になる 理由はない。従ってこの変換は不適切である。 否定記号 JIS漢字の否定記号(¬)はNOT SIGNである。対応するUCSのコードポイント は

  • XpdfReader

    What is Xpdf? Xpdf is a free PDF viewer and toolkit, including a text extractor, image converter, HTML converter, and more. Most of the tools are available as open source. Where do I get Xpdf? Download XpdfReader Download the open source Xpdf tools Who is behind Xpdf? Xpdf is based on XpdfWidget/Qt™, by Glyph & Cog.

  • http://www.kapustabrothers.com/2008/01/20/indexing-pdf-documents-with-zend_search_lucene/

  • 表記ゆれ辞書「たんし」 V1.1.0を公開しました。 - MediaLab Love Chapter 2

    sourceforgeに移りました。こちらからどうぞ。 ダウンロード(SkyDrive) V1.1.0との変更点は 表記ゆれと見なす基準を、「表記が同一」から「発音が同一」に変更しました。 (これによって、「ヴァイオリン」と「バイオリン」の表記ゆれが判別できるようになりました。) 上記変更に伴い、発音を辞書に含める。 地名と組織の固有名詞を辞書に含める。 その他バグを修正 以上です。見出し語が4,000、表記ゆれ候補数が約17,000増えました。 MD5(V1.1.0) 7bd5ba4c73da418eaa740e64bbd7e198 SHA-1(V1.1.0) a890161c8e2cb9b62f375875b49f6f7037030781 SHA-512(V1.1.0) 03a3add26998f0df100db3d688aae79405c2d81f9249da253f5ee93855

    表記ゆれ辞書「たんし」 V1.1.0を公開しました。 - MediaLab Love Chapter 2
  • 1