タグ

cmapとpdfに関するtarchanのブックマーク (3)

  • PDF 千夜一夜: PDFからテキスト抽出のために ToUnicode CMap

    PDFにおけるフォントの取り扱いに関連して、ToUnicode CMapというものがあります。今日はこれについて説明します。 アウトライン・フォントについての説明でお分かりいただけたかと思いますが、PDFにアウトライン・フォントを使って記録された文字を表示する仕組みは、フォントの中にあるグリフのアウトラインをラスタライザで可視化することになります。 これに対して、もう一つのPDFの利用方法として、PDFを読み上げたり、あるいは、検索エンジンで検索したり、あるいはテキスト情報を取り出して他のアプリケーションで使用する、などが考えられます。 通常、上で述べたような処理にはテキストが必要です。テキストについては、2005年12月15日 PDFと文字(4) – 文字の取り扱いで説明しましたので、初めての方は12月15日の話をお読みになってみてください。 PDFの中では、文字を可視化するための情報が

  • PDF 千夜一夜: PDFと文字 (25) – CMapで文字コードからCIDへ変換

    Adobe-Japan1、Adobe-GB1などのグリフセットでは、ひとつひとつのグリフにCIDという番号が付いていることは説明しました。CIDフォント・ファイルには、文字を画面表示したり印刷するためのグリフ・データを収容しています。フォント・ファイルに収容されているグリフ・データにアクセスするときはCID番号を使わなければなりません。 WindowsLinuxやマッキントッシュなどのOSや、OSの上で動くアプリケーションは、Unicode、または機種専用の文字コードを使ってテキストを処理します。一方、CIDフォントにあるグリフを使ってその文字を表示・印刷するには、文字コードからCIDに変換しなければなりません。 この文字コードからCIDへの変換を定義するのがCMapです。 図 CMapで文字コードからCIDへ変換 アドビシステムズはAdobe-Japan1、Adobe-GB1などのグリ

    tarchan
    tarchan 2013/05/21
    >古いCMapにはNECのPC、富士通のPC、Windows3.1、マッキントッシュなど機種依存文字コードからCIDへの変換用が沢山あります。しかし、最近のCMapはUnicodeからCIDへの変換用が中心になっています。
  • iText5用のiTextAsian.jar - たけぞう瀕死ブログ

    あちこちで書かれているように、iTextは5系にバージョンアップしてから日語などを使う際に必要なiTextAsian.jarがそのままでは使えなくなってしまっています。 http://d.hatena.ne.jp/thunderhead/20100408/1270695544 http://abetuyo.net/blog/2009/12/itext-50-itextasianjar.html こんな致命的な問題を誰もフィードバックしていないのかなぁ…と思いながらSourceForge.netiTextプロジェクトのMLを検索してみたところ、以下のエントリを発見しました。 > I noticed that iTextAsian.jar still uses package from > "com.lowagie.text.pdf.fonts/"instead of > "com/ite

    iText5用のiTextAsian.jar - たけぞう瀕死ブログ
  • 1