pdfのデータからepubを作成することを調べていて、 前回、Pythonを使ってPDFファイルからテキストを抽出する方法を試しました。 PDFファイルによっては抽出できないものもありましたので、今回はPDFとしてではなく、画像として認識し文字を抽出できるかどうか試していきたいと思います。 環境はMacOSを使用します。 準備 PyOCRのインストール PyOCRは、Python用の光学式文字認識(OCR)ツールのラッパーです。 pip install pyocr Tesseractのインストール OCR engineであるTesseractをインストールします。 brew install tesseract pdf2imageのインストール PDFを画像ファイルに変換してくれるライブラリ pdf2imageをインストールします。 pip install pdf2image Macの場合、
![Pythonでpdfを画像として認識しテキストを抽出を試してみる(pyocr) | DevelopersIO](https://cdn-ak-scissors.b.st-hatena.com/image/square/6f1fde3cff7767965729d2d96d3e31da5b8a643d/height=288;version=1;width=512/https%3A%2F%2Fdevio2023-media.developers.io%2Fwp-content%2Fuploads%2F2018%2F11%2Feyecatch_developers.io_1200x630.jpeg)