タグ

ブックマーク / www.altus5.co.jp (1)

  • PDF から 日本語を含むテキストを抽出する | Altus-Five Labs

    PDF から日語テキストを抽出するための方法をいくつか探し回った。 Java から使えること 日語が読み取れること PDF のバージョンに依存しないこと 開発環境が限定されないこと(LinuxWindows の両方で使えること) これらの条件を満たすツール等を探して、2つ試してみた。 PDFBox http://incubator.apache.org/pdfbox/ Apache のプロジェクトなので、これで決まれば一番いいなぁと思いながら、試してみた。 残念。 ページ下端のページ番号の数字だけ処理されて、日語が処理されなかった。 さらに探すと、「Apache PDFBox と FONTBox を日語化する」という記事を見つけたので、こちらにあるソースをダウンロードして、JDK1.6でビルドし直して使ってみた。 ほとんどの PDF の日語が正しく処理された。 すばらし

  • 1