PDFからテキストを抽出するにはPDFを開いてコピペでもできるけれど、一度に大量のPDFを処理するとか、抽出したテキストでさらに何かの処理をしたいときなどは、やはりプログラムでやりたい。というわけで、Python3でPDFからテキストを抽出する方法を調べてみた。 見つけたのがPDFMinerというPDFの構造解析をするPythonライブラリ。これを使ってPDFからテキストを抽出できる。ただしPython2系用なので、Python3にはフォークバージョンのPDFMiner.sixを使う(Python3.4/3.5に対応)。PDFMiner.sixを使ってPDFからテキストを抽出するまでの手順をまとめた。 環境 Raspberry Pi 3 Model B $ cat /etc/redhat-release CentOS Linux release 7.3.1611 (Core) $ pyth
![Python3でPDFのテキストを抽出する](https://cdn-ak-scissors.b.st-hatena.com/image/square/9913b33757d05a37cb5a784589cf4c1f6097a162/height=288;version=1;width=512/https%3A%2F%2Fblogger.googleusercontent.com%2Fimg%2Fb%2FR29vZ2xl%2FAVvXsEi0q6WOjavVTvxGM8He5nrF5WyivOsqvQ7TrapYaOc31L6DkItgD2R461mJlqukCme5PLpMHprSq7NAquZgKxhlYsAzhEfpwF-ayJhTGvjUH1RBTrHgkYboz9zOSl71iyaEHjNlCRlSsqY%2Fw1200-h630-p-k-no-nu%2Famenimo.png)