タグ

ブックマーク / qiita.com/41semicolon (1)

  • PythonでPDFから画像を抽出するもっとも簡単な方法 - Qiita

    PDFに含まれるすべての画像を抽出する方法です。Python3.6+。Windowsで動かしましたがLinux等でも可能だと思います。 01. 環境 pyMuPDFというライブラリを以下のコマンドで入れます: pyMuPDF は import fitz でインポートできるライブラリです。PDFだけでなくEPUBなども読めます。公式ドキュメントはここ で PyPIの統計情報 を見ると2021/May が最新更新でGithubでは900を超えるスターが付いてます。Python3.6+で動作します。私はWindows上で動かしています。 02. 基となる考え方 いくつか知っておくべき項目を列挙します。 PDFに入っている画像形式は不定です。どの形式の画像を入れるかはPDF作成者が決められます。jpgやpngが多いですが JPEG 2000(拡張子:jpx) が使われることもあります。 画像抽出

    PythonでPDFから画像を抽出するもっとも簡単な方法 - Qiita
  • 1