[B! pdf2html] taka0125のブックマーク

taka0125 id:taka0125

pdf2htmlに関するtaka0125のブックマーク (1)

PDF文書からテキストを抽出する - のほほん徒然
第二十一回論文PDFをHyper Estraierで検索できるようにするため，PDF文書をインデックスに登録する必要がある．しかし，Hyper Estraier付属のPDF文書用スクリプトはHTML文書に変換した後，インデックスに追加するという動作をしていた．さらに，タイトルにPDF文書のファイル名ではなく，PDFが作成された際に付けられていたファイル名を付けてしまうなど，いまいちこちらのニーズに合わなかったので自分で作っちゃうことにした．本来は，シェルスクリプトで書かれた標準添付されたスクリプトを書き直すべきなのだろうが，今回はAPIを使用してRubyスクリプトを作りたかった．そこで，まずはPDF文書からテキストを抽出することから始めてみた．様々なツール・ソフトがあるようだが，自分は「pdftotext」を使ってみることに．これは，「xpdf」というLinux用ソフトに添付されてい
taka0125 2009/06/26
pdf2html
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx