前は、ワードファイルで同様のことをする方法 http://d.hatena.ne.jp/tizz/20090311/1236831938 を書いたが今回はそのpdf版。 普通なら、CAM::PDF::PageTextモジュールを使えばいいのだが、うちではこれが動かなかったので(自分でコンパイルして入れた人もいるようだけど)、xdoc2txt+perlで。これは、perlって言うよりはwindows tipsかな。 手順 まずxdoc2txtをダウンロード(これはPDFに限らずテキストをいろいろなプログラムから切り出してくるコマンドラインで動くスタンドアロン・プログラム)。 http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html ダウンロードしたものを解凍したフォルダに次のスクリプトを放り込む。 #! usr/bin/perl my $infolder
Perl で さくっと PDF ファイルを分割、テキスト抽出する方法が無いかなあ?というざっくり調査の結果を紹介します。 CPAN モジュールを探したのだが、結論から言うとどれも一長一短でした。 PDF::Extract http://search.cpan.org/~nsharrock/PDF-Extract-3.03/ その名の通り、指定ページをPDFから抽出するだけのシンプルモジュール。 PDF::Extract でページ分割 use PDF::Extract; my $pdf = new PDF::Extract( PDFDoc=>’mypdf.pdf’ ); my $pageno=5; #$pageno=$pdf->getVars(“PDFPageCount”); #これで取れるはず?だがうまくいかない my $i=1; #2ページずつPDFファイル分割 while($i <=$
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く