sawarabi0130のブックマーク - はてなブックマーク

PythonでPDFからテキストを読み取る方法について - ガンマソフト
PDFのページ抜粋、結合、重ね合わせのようなPDFのページ操作ならば、PythonでPyPDF2を利用すれば簡単にプログラミングできます。例えば、フォルダ内のPDFを１つにまとめるプログラムなどがすぐに作れます。しかし、PDFの中身のテキストをプログラムで読み取るのは大抵一筋縄ではいきません。日本語や帳票であればもっと難易度が上がります。この方法ならどんなPDFでも大丈夫という決定版はありません。目的や原稿のPDFの状態により、適した方法を選択する必要があります。今回はその候補となる方法を紹介します。本記事の目次 PyPDF2 pdfminer.six Apache Tika Tesseract OCR 最後に PyPDF2 PyPDF2 でもテキストを読み取れます。PyPDF2は以下のようにpipでインストールできます。 pip install PyPDF2 以下のようにextra
sawarabi0130 2020/06/29
python

PDF
リンク
PythonでOCRを実行する方法 - ガンマソフト
PyOCRのインストール TesseractをインストールしておけばコマンドからOCRを実行できる状態になりますが、Pythonのライブラリから操作するとさらに使いやすくなります。ここでは、PyPIで公開されている「PyOCR」というライブラリを利用します。インストールは以下のようにpipで簡単にインストールできます。 > py -m pip install pyocr # または環境に応じて以下のコマンドを用いる > python -m pip install pyocr > python3 -m pip install pyocr PyOCRをインストールすると画像処理を行える「Pillow」というライブラリも一緒にインストールされます。 OCRを行うサンプル画像 Tesseractの確認テストでは背景がないシンプルな画像を使いましたが、ここでは背景に模様がある画像を用います。OC
sawarabi0130 2020/06/18
python

OCR
リンク
1

はてなブックマーク

タグ

ブックマーク / gammasoft.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / gammasoft.jp (2)

PythonでPDFからテキストを読み取る方法について - ガンマソフト

PythonでOCRを実行する方法 - ガンマソフト

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス