雛形に沿ったPDFファイルを読み込んで、特定の場所の文字列を文字認識で取得する。 というアプリケーションを作りたかったので、忘備録代わりに。 普通にググるとImageMagick+GhostScriptが大多数でした。 一度試してみましたが、OCR処理を通すために必要な解像度まで上げるとCPUが悲鳴を上げます。 今回はWebサービスへの組み込みも考えているので、もっと軽量にしたい・・・ なので、LinuxコンソールアプリのpdfimagesとGoogleオープンソースOCRエンジンのTesseract-OCRを組み合わせてみました。 環境 centos6 php composer imagemagick pdfimages Tesseract-OCR 準備