最近の Linux だと Poppler というライブラリを使用して PDF の処理を行っているようです *1 。Poppler をインストール(Fedora13 だと poppler-utils パッケージ)すると pdftotext というコマンドが付属していて、そのコマンドからテキスト抽出することもできます。たまたま poppler の Python バインディングも Poppler Python Bindings in Launchpad で開発中だと知ったのでインストールして使ってみました。 Fedora13 なら poppler/pypoppler 共に yum からインストールできます。 $ sudo yum -y install poppler poppler-utils poppler-data poppler-glib \ pypoppler $ rpm -q popp