Linux:pdftotextコマンドでPDFからテキストを抽出 † apacheTikaをつかってPDFからテキストを抽出していたけど、縦書きのPDFがどうもうまいこと抽出できない事象に遭遇。 いろいろ調べたところ、CentOS6系では、popplerというPDFソフトウェアのコマンドラインツールでPDFからテキスト抽出ができるらしいということが分かった。 popplerとは、xPDFというOSSからフォークしたソフトらしい。 xPDF:http://ja.wikipedia.org/wiki/Xpdf Poppler:http://ja.wikipedia.org/wiki/Poppler このPopplerはCentOS6系では標準で使用できるようです。 使えるかどうかはyumで確認できます。 # yum list poppler poppler-utils Loaded plugi