タグ

ブックマーク / blog.antenna.co.jp (4)

  • PDF 千夜一夜: PDFからテキスト抽出のために ToUnicode CMap

    PDFにおけるフォントの取り扱いに関連して、ToUnicode CMapというものがあります。今日はこれについて説明します。 アウトライン・フォントについての説明でお分かりいただけたかと思いますが、PDFにアウトライン・フォントを使って記録された文字を表示する仕組みは、フォントの中にあるグリフのアウトラインをラスタライザで可視化することになります。 これに対して、もう一つのPDFの利用方法として、PDFを読み上げたり、あるいは、検索エンジンで検索したり、あるいはテキスト情報を取り出して他のアプリケーションで使用する、などが考えられます。 通常、上で述べたような処理にはテキストが必要です。テキストについては、2005年12月15日 PDFと文字(4) – 文字の取り扱いで説明しましたので、初めての方は12月15日の話をお読みになってみてください。 PDFの中では、文字を可視化するための情報が

  • PDF 千夜一夜: PDFと文字 (25) – CMapで文字コードからCIDへ変換

    Adobe-Japan1、Adobe-GB1などのグリフセットでは、ひとつひとつのグリフにCIDという番号が付いていることは説明しました。CIDフォント・ファイルには、文字を画面表示したり印刷するためのグリフ・データを収容しています。フォント・ファイルに収容されているグリフ・データにアクセスするときはCID番号を使わなければなりません。 WindowsLinuxやマッキントッシュなどのOSや、OSの上で動くアプリケーションは、Unicode、または機種専用の文字コードを使ってテキストを処理します。一方、CIDフォントにあるグリフを使ってその文字を表示・印刷するには、文字コードからCIDに変換しなければなりません。 この文字コードからCIDへの変換を定義するのがCMapです。 図 CMapで文字コードからCIDへ変換 アドビシステムズはAdobe-Japan1、Adobe-GB1などのグリ

    tarchan
    tarchan 2013/05/21
    >古いCMapにはNECのPC、富士通のPC、Windows3.1、マッキントッシュなど機種依存文字コードからCIDへの変換用が沢山あります。しかし、最近のCMapはUnicodeからCIDへの変換用が中心になっています。
  • CSS3とUnicode仕様の縦書きの文字の向きの議論について (CSS組版ブログ)

    関連資料 10月22日「縦組み時の文字の向き―その理論とマークアップ方法」の発表資料(CAS-UBブログ) プレゼン資料(PDF) UTR50 draft 7 CSS3 Writing Modes 前回記事「koboのEPUB3縦書きをためしてみた」 ツイッターまとめ「UTR#50(Unicodeの縦書きの文字の向き)の話題 #UTR50」 「縦組み時の文字の向き―その理論とマークアップ方法」(PDF)は、SVO(英数字を正立、CSS3のtext-orientation:upright)を基としてMVO(英数字を横倒し、CSS3のtext-orientation:mixed-right)を部分的に使用する文書マークアップ方法を提唱しています。その「マークアップ私案」より引用: SVO、MVOは縦組みの文字スタイルの一種である 文書スタイル毎にフレキシブルな指定を可能にすべき 文字コードの

  • PDF 千夜一夜: Windows Vista と日本語文字コード問題(6)

    とりあえず、Microsoftの資料から、MSゴシックとMS明朝のバージョンアップについての概要をまとめてみます。 1.MS明朝、MSゴシックのバージョン (1) Windows Vista用の標準搭載MS明朝、MSゴシックは、バージョン5.0 (2) 現行 Windows XP用の標準搭載MS明朝、MSゴシックは、バージョン2.3 (3) 次の2つのフォントパッケージが、無償提供される。 a.Windows XP SP2以上、Windows Server2003 SP1以上用のMS明朝、MSゴシックバージョン5.0 b. Windows Vista、Windows Server Longhorn向けMS明朝、MSゴシック、バージョン2.5 2.各フォント・パッケージの概要 (1) MS明朝、MSゴシック バージョン2.3 — 初版は1998年(?)。JIS X0208 6,355文字とJ

  • 1