ブックマーク / irukanobox.blogspot.com (1)

  • Python3でPDFのテキストを抽出する

    PDFからテキストを抽出するにはPDFを開いてコピペでもできるけれど、一度に大量のPDFを処理するとか、抽出したテキストでさらに何かの処理をしたいときなどは、やはりプログラムでやりたい。というわけで、Python3でPDFからテキストを抽出する方法を調べてみた。 見つけたのがPDFMinerというPDFの構造解析をするPythonライブラリ。これを使ってPDFからテキストを抽出できる。ただしPython2系用なので、Python3にはフォークバージョンのPDFMiner.sixを使う(Python3.4/3.5に対応)。PDFMiner.sixを使ってPDFからテキストを抽出するまでの手順をまとめた。 環境 Raspberry Pi 3 Model B $ cat /etc/redhat-release CentOS Linux release 7.3.1611 (Core) $ pyth

    Python3でPDFのテキストを抽出する
    tatsu-n
    tatsu-n 2018/04/11
  • 1