Apache PDFBox はPDFファイルの操作や内容の抽出などを行うオープンソースのライブラリで、最初にリリースされてからの歴史も長く、結構メジャーなライブラリである。InfoPileで利用しているApache Tika プロジェクトでも標準のPDF読み込み機能として採用されている。 しかし、残念なことにPDFBoxはCJKなテキストをほとんどサポートしておらず、日本語PDFではほとんど使い物にならない。他のPDFライブラリに切り替えるのも手だが、他に日本語が扱えるJava製ライブラリが存在するのかどうか不案内だし、切り替えると Tika まで直しにかからないといけなくなってしまう。というわけで素直にPDFBoxの日本語対応にチャレンジしてみた。PDFとかPostScriptとかあんまり詳しい方ではないけど、なんとかなるだろう。 調べてみると、今年の春頃に日本語対応にチャレンジされた方