PDF から日本語テキストを抽出するための方法をいくつか探し回った。 Java から使えること 日本語が読み取れること PDF のバージョンに依存しないこと 開発環境が限定されないこと(Linux と Windows の両方で使えること) これらの条件を満たすツール等を探して、2つ試してみた。 PDFBox http://incubator.apache.org/pdfbox/ Apache のプロジェクトなので、これで決まれば一番いいなぁと思いながら、試してみた。 残念。 ページ下端のページ番号の数字だけ処理されて、日本語が処理されなかった。 さらに探すと、「Apache PDFBox と FONTBox を日本語化する」という記事を見つけたので、こちらにあるソースをダウンロードして、JDK1.6でビルドし直して使ってみた。 ほとんどの PDF の日本語が正しく処理された。 すばらし