tatsu-nのブックマーク - はてなブックマーク

tatsu-n id:tatsu-n

ブックマーク / irukanobox.blogspot.com (1)

Python3でPDFのテキストを抽出する
PDFからテキストを抽出するにはPDFを開いてコピペでもできるけれど、一度に大量のPDFを処理するとか、抽出したテキストでさらに何かの処理をしたいときなどは、やはりプログラムでやりたい。というわけで、Python3でPDFからテキストを抽出する方法を調べてみた。見つけたのがPDFMinerというPDFの構造解析をするPythonライブラリ。これを使ってPDFからテキストを抽出できる。ただしPython2系用なので、Python3にはフォークバージョンのPDFMiner.sixを使う（Python3.4/3.5に対応）。PDFMiner.sixを使ってPDFからテキストを抽出するまでの手順をまとめた。環境 Raspberry Pi 3 Model B $ cat /etc/redhat-release CentOS Linux release 7.3.1611 (Core) $ pyth
tatsu-n 2018/04/11
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx