タグ

ブックマーク / chalkless.hatenablog.com (1)

  • PDF→text(特に日本語) - chalkless::weblog

    PDF Hacks ―文書作成、管理、活用のための達人テクニック 作者: Sid Steward,千住治郎出版社/メーカー: オライリージャパン発売日: 2005/03/29メディア: 単行購入: 3人 クリック: 53回この商品を含むブログ (20件) を見るすでに、あちこちで議論はなされているのだが、少しかじってみる羽目に。 このでも触れられているのだが、処理するのには、pdftotextというのとpdftkの2通りがある。前者は文字通り、PDFをテキスト情報にするもの。後者は、もともとPDFを合体さすとか抽出さすもので、読んでも中身がわからんものをdecodeして、それをいじってテキストにしようという魂胆である。いずれにせよ、英語の場合は楽なのだが、日語になると途端に課題は困難となる。両方いじってみたが、前者の方がうまく日語が出たので(体裁は不満だが)、そっちの方で。 インス

    PDF→text(特に日本語) - chalkless::weblog
    ma_ko
    ma_ko 2011/07/04
    このページお役立ち. GJ!!
  • 1