[B! PDF][itext] dogatanaのブックマーク

dogatana id:dogatana

PDFとitextに関するdogatanaのブックマーク (1)

C#　iTextSharp でテキストを抽出２ - ◆かっぺちゃんの航海日誌Ⅱ◆ Epsode2
文字コードらしきものはどうやらCIDというAdobe固有の文字コードテーブルのようで、計算して復元できるような代物ではないらしい。その変換テーブル情報を CMap と言うらしい。そこで xpdf というサイトにある xpdf-japanese.tar.gz というのを入手して、そのなかにある Adobe-Japan1-UCS2 というテキストファイル（拡張子なし）がどうも、今回のCMAPとして使えそうだ。イメージとしては読み込んだPDFの中にもそういったCMAP情報があって、それを元にコード変換していくのがスマートにも思えるが、PDFファイルの中にCMAP情報があるのか？またどのクラスモジュールで抜き出すのかがいまいち分からない。 PDFによっては他のCMAPファイルで文字コードを復元しなくちゃいけないんだろうが、どの情報を見てどのCMAPを使うかは今後の課題としよう・・・。とりあ
dogatana 2017/10/24
pdf

itext
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx