pdfのデータからepubを作成することを調べていて、pythonのライブラリで比較的簡単にpdfからテキストは抽出できる とアドバイスをもらったので実際にやってみようと思います。 PyPDF2 pdfminer.six この2つがメジャーなようです。 PyPDF2は日本語に対応しておらず、pdfminer.sixは日本語もOKなようですね。 PyPDF2 インストール pipを使ってインストールできます。 pip install PyPDF2 読み込んでみる 2019-11-Chaos_Engineering_Whitepaper のpdfを使用してみます。、 ローカルPCにダウンロードし、以下のコードを実行してみます。 from PyPDF2 import PdfFileReader with open("2019-11-Chaos_Engineering_Whitepaper.pdf
