ブックマーク / orebibou.com (1)

  • pdfの内容を標準出力で出力させる | 俺的備忘録 〜なんかいろいろ〜

    先日のシェル芸勉強会で、pdfの内容をコンソール上で確認する問題があったので、その備忘。 コンソール上でpdfを標準出力させる場合、通常のプリインストールされているコマンドからだと少々難しいようだ。 というのも、良く使用されているpdfの場合だと中のテキストなどがzlibで圧縮された状態で保持されているため、ここをうまいことzilbで解凍する必要があるらしい。 通りで…単純なテキストしか入ってないpdfなのに、中見たらわけわからんと思ったら… このへんを参考になんとか作れるかも(stringsで読込み、awkなどでFlateDecodeされた箇所だけを抽出して復号化、それをテキストとして抽出?)しれないが、復号化のトコで躓いた。ワンライナーでは厳しそうだ…。 openssl -zlib -dなどでは出来ない様子。 という訳で、これについてはちゃんとpdfからテキストに戻すコマンドが世の中に

    masatoz
    masatoz 2017/06/21
    pdftk pdftotext
  • 1