[B! spider][測量] leona-konoのブックマーク

leona-kono id:leona-kono

spiderと測量に関するleona-konoのブックマーク (3)

公共工事条件付一般競争入札公告
leona-kono 2011/02/28
測量

仕事

perl

spider

mech
リンク
たくさんのPDFファイルからPDFからテキストを取り出す方法(for Windows) - tizzの日記
前は、ワードファイルで同様のことをする方法 http://d.hatena.ne.jp/tizz/20090311/1236831938 を書いたが今回はそのpdf版。普通なら、CAM::PDF::PageTextモジュールを使えばいいのだが、うちではこれが動かなかったので（自分でコンパイルして入れた人もいるようだけど）、xdoc2txt+perlで。これは、perlって言うよりはwindows tipsかな。手順まずxdoc2txtをダウンロード（これはPDFに限らずテキストをいろいろなプログラムから切り出してくるコマンドラインで動くスタンドアロン・プログラム）。 http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html ダウンロードしたものを解凍したフォルダに次のスクリプトを放り込む。 #! usr/bin/perl my $infolder
leona-kono 2010/12/28
perl

pdf

spider

business

測量

入札
リンク
Perl で PDF ファイルを分割、テキスト抽出する
Perl でさくっと PDF ファイルを分割、テキスト抽出する方法が無いかなあ？というざっくり調査の結果を紹介します。 CPAN モジュールを探したのだが、結論から言うとどれも一長一短でした。 PDF::Extract http://search.cpan.org/~nsharrock/PDF-Extract-3.03/ その名の通り、指定ページをPDFから抽出するだけのシンプルモジュール。 PDF::Extract でページ分割 use PDF::Extract; my $pdf = new PDF::Extract( PDFDoc=>’mypdf.pdf’ ); my $pageno=5; #$pageno=$pdf->getVars(“PDFPageCount”); #これで取れるはず？だがうまくいかない my $i=1; #2ページずつPDFファイル分割 while($i <=$
leona-kono 2010/12/28
perl

pdf

spider

web

business

測量

入札
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx