タグ

2009年6月17日のブックマーク (1件)

  • MOONGIFT: » PDFファイルからテキスト抽出を行う「PDFDocText」:オープンソースを毎日紹介

    PDFファイルは容易に修正できないとあって、修正されたくないファイル(見積書や請求書等)を作成する事も多い。 だが、受け取る側としてはその中にある文字を抽出して使いたいというニーズがある。 請求書の中から金額をピックアップするというようなニーズであれば、pdf2textを使って抽出するという手もあるが、これは日語が文字化けてしまう事がある。また、それほど規模が大きくないのであればこれを使うのが簡単だ。 今回紹介するフリーウェアはPDFDocText、PDFファイルからテキストの抽出を行うソフトウェアだ。 使い方は簡単だ。起動すると上図のウィンドウが開くので、そこにPDFファイルをドラッグアンドドロップすれば良い。抽出が完了すると、PDFファイルと同名のテキストファイルが生成される。 例として左図のようなPDFファイルがあったとする。 これを抽出してみると、次のようなテキストファイルが生成

    MOONGIFT: » PDFファイルからテキスト抽出を行う「PDFDocText」:オープンソースを毎日紹介
    miwluv
    miwluv 2009/06/17