PDF Hacks ―文書作成、管理、活用のための達人テクニック 作者: Sid Steward,千住治郎出版社/メーカー: オライリージャパン発売日: 2005/03/29メディア: 単行本購入: 3人 クリック: 53回この商品を含むブログ (20件) を見るすでに、あちこちで議論はなされているのだが、少しかじってみる羽目に。 この本でも触れられているのだが、処理するのには、pdftotextというのとpdftkの2通りがある。前者は文字通り、PDFをテキスト情報にするもの。後者は、もともとPDFを合体さすとか抽出さすもので、読んでも中身がわからんものをdecodeして、それをいじってテキストにしようという魂胆である。いずれにせよ、英語の場合は楽なのだが、日本語になると途端に課題は困難となる。両方いじってみたが、前者の方がうまく日本語が出たので(体裁は不満だが)、そっちの方で。 インス
![PDF→text(特に日本語) - chalkless::weblog](https://cdn-ak-scissors.b.st-hatena.com/image/square/fc90cb96814c4b8064b238b7e1c245b6ffdc8649/height=288;version=1;width=512/https%3A%2F%2Fimages-fe.ssl-images-amazon.com%2Fimages%2FI%2F51SAF48SX8L._SL160_.jpg)