[B! PDF] Y_sekkyのブックマーク

Y_sekky id:Y_sekky

PDFに関するY_sekkyのブックマーク (2)

PDF から日本語を含むテキストを抽出する | Altus-Five Labs
PDF から日本語テキストを抽出するための方法をいくつか探し回った。 Java から使えること日本語が読み取れること PDF のバージョンに依存しないこと開発環境が限定されないこと（Linux と Windows の両方で使えること）これらの条件を満たすツール等を探して、２つ試してみた。 PDFBox http://incubator.apache.org/pdfbox/ Apache のプロジェクトなので、これで決まれば一番いいなぁと思いながら、試してみた。残念。ページ下端のページ番号の数字だけ処理されて、日本語が処理されなかった。さらに探すと、「Apache PDFBox と FONTBox を日本語化する」という記事を見つけたので、こちらにあるソースをダウンロードして、JDK1.6でビルドし直して使ってみた。ほとんどの PDF の日本語が正しく処理された。すばらし
Y_sekky 2011/01/31
PDF
リンク
PDF Reference, version 1.7 - Adobe
Acrobat Developer Resources¶ Acrobat products provide several ways developers can interact with Acrobat products. From the tried and true Acrobat and PDFL SDKs that have served enterprise for decades, to the new Document Services APIs that provide web-based opportunities for PDF manipulation, all SDKs provide docs, code samples, and downloads that offer maximum flexibility and speed to get you up
Y_sekky 2011/01/29
PDF

仕様
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx