taka0125のブックマーク - はてなブックマーク

PDF文書からテキストを抽出する - のほほん徒然
第二十一回論文PDFをHyper Estraierで検索できるようにするため，PDF文書をインデックスに登録する必要がある．しかし，Hyper Estraier付属のPDF文書用スクリプトはHTML文書に変換した後，インデックスに追加するという動作をしていた．さらに，タイトルにPDF文書のファイル名ではなく，PDFが作成された際に付けられていたファイル名を付けてしまうなど，いまいちこちらのニーズに合わなかったので自分で作っちゃうことにした．本来は，シェルスクリプトで書かれた標準添付されたスクリプトを書き直すべきなのだろうが，今回はAPIを使用してRubyスクリプトを作りたかった．そこで，まずはPDF文書からテキストを抽出することから始めてみた．様々なツール・ソフトがあるようだが，自分は「pdftotext」を使ってみることに．これは，「xpdf」というLinux用ソフトに添付されてい
taka0125 2009/06/26
pdf2html
リンク
1

はてなブックマーク