[B! cmap][pdf] tarchanのブックマーク

tarchan id:tarchan

cmapとpdfに関するtarchanのブックマーク (3)

PDF　千夜一夜: PDFからテキスト抽出のために　ToUnicode CMap
PDFにおけるフォントの取り扱いに関連して、ToUnicode CMapというものがあります。今日はこれについて説明します。アウトライン・フォントについての説明でお分かりいただけたかと思いますが、PDFにアウトライン・フォントを使って記録された文字を表示する仕組みは、フォントの中にあるグリフのアウトラインをラスタライザで可視化することになります。これに対して、もう一つのPDFの利用方法として、PDFを読み上げたり、あるいは、検索エンジンで検索したり、あるいはテキスト情報を取り出して他のアプリケーションで使用する、などが考えられます。通常、上で述べたような処理にはテキストが必要です。テキストについては、2005年12月15日 PDFと文字（4) – 文字の取り扱いで説明しましたので、初めての方は12月15日の話をお読みになってみてください。 PDFの中では、文字を可視化するための情報が
tarchan 2013/05/21
pdf

cmap

unicode
リンク
PDF　千夜一夜: PDFと文字 (25) – CMapで文字コードからCIDへ変換
Adobe-Japan1、Adobe-GB1などのグリフセットでは、ひとつひとつのグリフにCIDという番号が付いていることは説明しました。CIDフォント・ファイルには、文字を画面表示したり印刷するためのグリフ・データを収容しています。フォント・ファイルに収容されているグリフ・データにアクセスするときはCID番号を使わなければなりません。 Windows、LinuxやマッキントッシュなどのOSや、OSの上で動くアプリケーションは、Unicode、または機種専用の文字コードを使ってテキストを処理します。一方、CIDフォントにあるグリフを使ってその文字を表示・印刷するには、文字コードからCIDに変換しなければなりません。この文字コードからCIDへの変換を定義するのがCMapです。図 CMapで文字コードからCIDへ変換アドビシステムズはAdobe-Japan1、Adobe-GB1などのグリ
tarchan 2013/05/21
＞古いCMapにはNECのPC、富士通のPC、Windows3.1、マッキントッシュなど機種依存文字コードからCIDへの変換用が沢山あります。しかし、最近のCMapはUnicodeからCIDへの変換用が中心になっています。

pdf

cmap
リンク
iText5用のiTextAsian.jar - たけぞう瀕死ブログ
あちこちで書かれているように、iTextは5系にバージョンアップしてから日本語などを使う際に必要なiTextAsian.jarがそのままでは使えなくなってしまっています。 http://d.hatena.ne.jp/thunderhead/20100408/1270695544 http://abetuyo.net/blog/2009/12/itext-50-itextasianjar.html こんな致命的な問題を誰もフィードバックしていないのかなぁ…と思いながらSourceForge.netのiTextプロジェクトのMLを検索してみたところ、以下のエントリを発見しました。 > I noticed that iTextAsian.jar still uses package from > "com.lowagie.text.pdf.fonts/"instead of > "com/ite
tarchan 2011/02/25
java

itext
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx