目次 PDF形式のデータから、テキストを抜き出す Pythonで使えるPDFライブラリ比較 pdfminer.six pdfminer.six付属のツールpdf2txt.py pdfminerを使ったPythonプログラム シンプルなレイアウトのPDFで試す 2段組みの複雑なPDFで試す 結論:プログラムのインプットにPDFは不適 理由1:うまくいくPDFとうまくいかないPDFがある 理由2:特にうざい2バイト文字が化ける問題 PDF形式のデータから、テキストを抜き出す PDF形式のデータから、テキストを抜き出して、何か処理する時のインプットデータにできないかと試してみた結果のご報告です。 一口にPDFと言っても、様々なバージョンがあります。 暗号化もできます。 ja.wikipedia.org そいういうバリエーションを吸収しないといけないなどと考えると、プログラミングでデータで使うには