groongaなどを使って全文検索システムを作るときは、PDFやオフィス文書などからテキスト情報を抜きだして検索用インデックスを作る必要があります。Windowsでテキストを抽出するソフトウェアとしてはxdoc2txtなどがありますが、ここでは、Linuxサーバ上でテキストを抽出する方法を紹介します。 PDF Linux上でPDFを閲覧する場合は、昔はXpdfでしたが、最近はEvinceやOkularの方がよく使われているようです。どちらもPDFの処理にはXpdfからforkしたPopplerというライブラリを使っています。 popplerにはPDFからテキストを抽出するpdftotextというコマンドが付属しているため、それを利用してPDFからテキストを抽出できます。 % pdftotext hello.pdf hello.txt これでhello.pdfのテキスト情報がhello.tx
国土交通省国土地理院 (国土交通省法人番号2000012100001) 〒305-0811 茨城県つくば市北郷1番 電話:029-864-1111(代表) FAX:029-864-1807 アクセス情報・地図
現在、公告情報はありません。 収穫調査、事務・業務委託等担当部署公告日入札日件名備考現在、公告情報はありません。 庁舎等新築・改修等現在、公告情報はありません。 その他物役担当部署公告日入札日件名備考
*林野庁 森林技術総合研修所 林業機械化センター(〒378-0312群馬県沼田市利根町根利 1445 TEL:0278-54-8332)においても役務等の入札を予定しております。入札情報については、同センターのホームページをご覧ください。
前は、ワードファイルで同様のことをする方法 http://d.hatena.ne.jp/tizz/20090311/1236831938 を書いたが今回はそのpdf版。 普通なら、CAM::PDF::PageTextモジュールを使えばいいのだが、うちではこれが動かなかったので(自分でコンパイルして入れた人もいるようだけど)、xdoc2txt+perlで。これは、perlって言うよりはwindows tipsかな。 手順 まずxdoc2txtをダウンロード(これはPDFに限らずテキストをいろいろなプログラムから切り出してくるコマンドラインで動くスタンドアロン・プログラム)。 http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html ダウンロードしたものを解凍したフォルダに次のスクリプトを放り込む。 #! usr/bin/perl my $infolder
Perl で さくっと PDF ファイルを分割、テキスト抽出する方法が無いかなあ?というざっくり調査の結果を紹介します。 CPAN モジュールを探したのだが、結論から言うとどれも一長一短でした。 PDF::Extract http://search.cpan.org/~nsharrock/PDF-Extract-3.03/ その名の通り、指定ページをPDFから抽出するだけのシンプルモジュール。 PDF::Extract でページ分割 use PDF::Extract; my $pdf = new PDF::Extract( PDFDoc=>’mypdf.pdf’ ); my $pageno=5; #$pageno=$pdf->getVars(“PDFPageCount”); #これで取れるはず?だがうまくいかない my $i=1; #2ページずつPDFファイル分割 while($i <=$
入札案件については、PDF形式、テキスト形式など様々なフォーマットで掲載され、WEBサイト上の掲載場所も機関によって異なるため、クローラーによる自動取得のみでは漏れが発生する可能性があります。 そこで、NJSSではクローラーによる自動取得と合わせて人が目視で各機関の入札案件を確認して掲載しております。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く