タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

PDFに関するY_sekkyのブックマーク (2)

  • PDF から 日本語を含むテキストを抽出する | Altus-Five Labs

    PDF から日語テキストを抽出するための方法をいくつか探し回った。 Java から使えること 日語が読み取れること PDF のバージョンに依存しないこと 開発環境が限定されないこと(LinuxWindows の両方で使えること) これらの条件を満たすツール等を探して、2つ試してみた。 PDFBox http://incubator.apache.org/pdfbox/ Apache のプロジェクトなので、これで決まれば一番いいなぁと思いながら、試してみた。 残念。 ページ下端のページ番号の数字だけ処理されて、日語が処理されなかった。 さらに探すと、「Apache PDFBox と FONTBox を日語化する」という記事を見つけたので、こちらにあるソースをダウンロードして、JDK1.6でビルドし直して使ってみた。 ほとんどの PDF の日語が正しく処理された。 すばらし

    Y_sekky
    Y_sekky 2011/01/31
  • PDF Reference, version 1.7 - Adobe

    Acrobat Developer Resources¶ Acrobat products provide several ways developers can interact with Acrobat products. From the tried and true Acrobat and PDFL SDKs that have served enterprise for decades, to the new Document Services APIs that provide web-based opportunities for PDF manipulation, all SDKs provide docs, code samples, and downloads that offer maximum flexibility and speed to get you up

  • 1