タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

pdf2htmlに関するtaka0125のブックマーク (1)

  • PDF文書からテキストを抽出する - のほほん徒然

    第二十一回 論文PDFをHyper Estraierで検索できるようにするため,PDF文書をインデックスに登録する必要がある.しかし,Hyper Estraier付属のPDF文書用スクリプトはHTML文書に変換した後,インデックスに追加するという動作をしていた.さらに,タイトルにPDF文書のファイル名ではなく,PDFが作成された際に付けられていたファイル名を付けてしまうなど,いまいちこちらのニーズに合わなかったので自分で作っちゃうことにした. 来は,シェルスクリプトで書かれた標準添付されたスクリプトを書き直すべきなのだろうが,今回はAPIを使用してRubyスクリプトを作りたかった.そこで,まずはPDF文書からテキストを抽出することから始めてみた. 様々なツール・ソフトがあるようだが,自分は「pdftotext」を使ってみることに.これは,「xpdf」というLinux用ソフトに添付されてい

    PDF文書からテキストを抽出する - のほほん徒然
  • 1