puzzeljpのブックマーク / 2021年12月10日

Pythonでpdfを画像として認識しテキストを抽出を試してみる(pyocr) | DevelopersIO

6 users
dev.classmethod.jp
テクノロジー

pdfのデータからepubを作成することを調べていて、前回、Pythonを使ってPDFファイルからテキストを抽出する方法を試しました。 PDFファイルによっては抽出できないものもありましたので、今回はPDFとしてではなく、画像として認識し文字を抽出できるかどうか試していきたいと思います。環境はMacOSを使用します。準備 PyOCRのインストール PyOCRは、Python用の光学式文字認識（OCR）ツールのラッパーです。 pip install pyocr Tesseractのインストール OCR engineであるTesseractをインストールします。 brew install tesseract pdf2imageのインストール PDFを画像ファイルに変換してくれるライブラリ　pdf2imageをインストールします。 pip install pdf2image Macの場合、

Pythonでpdfを画像として認識しテキストを抽出を試してみる(pyocr) | DevelopersIO

はてなブックマーク

タグ

2021年12月10日のブックマーク (1件)

Pythonでpdfを画像として認識しテキストを抽出を試してみる(pyocr) | DevelopersIO

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス