先日のシェル芸勉強会で、pdfの内容をコンソール上で確認する問題があったので、その備忘。 コンソール上でpdfを標準出力させる場合、通常のプリインストールされているコマンドからだと少々難しいようだ。 というのも、良く使用されているpdfの場合だと中のテキストなどがzlibで圧縮された状態で保持されているため、ここをうまいことzilbで解凍する必要があるらしい。 通りで…単純なテキストしか入ってないpdfなのに、中見たらわけわからんと思ったら… このへんを参考になんとか作れるかも(stringsで読込み、awkなどでFlateDecodeされた箇所だけを抽出して復号化、それをテキストとして抽出?)しれないが、復号化のトコで躓いた。ワンライナーでは厳しそうだ…。 openssl -zlib -dなどでは出来ない様子。 という訳で、これについてはちゃんとpdfからテキストに戻すコマンドが世の中に