[B! Python][PDF(Portable Document Format)] moo_sanのブックマーク

moo_san id:moo_san

PythonとPDF(Portable Document Format)に関するmoo_sanのブックマーク (2)

Pythonでpdfを画像として認識しテキストを抽出を試してみる(pyocr) | DevelopersIO
pdfのデータからepubを作成することを調べていて、前回、Pythonを使ってPDFファイルからテキストを抽出する方法を試しました。 PDFファイルによっては抽出できないものもありましたので、今回はPDFとしてではなく、画像として認識し文字を抽出できるかどうか試していきたいと思います。環境はMacOSを使用します。準備 PyOCRのインストール PyOCRは、Python用の光学式文字認識（OCR）ツールのラッパーです。 pip install pyocr Tesseractのインストール OCR engineであるTesseractをインストールします。 brew install tesseract pdf2imageのインストール PDFを画像ファイルに変換してくれるライブラリ　pdf2imageをインストールします。 pip install pdf2image Macの場合、
moo_san 2022/01/15
Python

PDF(Portable Document Format)
リンク
pythonでPDFからテキストを抽出してみる(PyPDF2, pdfminer.six) | DevelopersIO
pdfのデータからepubを作成することを調べていて、pythonのライブラリで比較的簡単にpdfからテキストは抽出できる　とアドバイスをもらったので実際にやってみようと思います。 PyPDF2 pdfminer.six この2つがメジャーなようです。 PyPDF2は日本語に対応しておらず、pdfminer.sixは日本語もOKなようですね。 PyPDF2 インストール pipを使ってインストールできます。 pip install PyPDF2 読み込んでみる 2019-11-Chaos_Engineering_Whitepaper　のpdfを使用してみます。、ローカルPCにダウンロードし、以下のコードを実行してみます。 from PyPDF2 import PdfFileReader with open("2019-11-Chaos_Engineering_Whitepaper.pdf
moo_san 2022/01/13
Python

PDF(Portable Document Format)

Tips
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx