2020年6月22日のブックマーク (1件)

  • PDFからテキストを抽出するのはなぜ難しいのか?

    PDFファイルは、どんな環境のPCでもテキストや画像の表示を崩すことなく見られるデータ形式です。しかし、PDFからテキストデータをコピーしようとすると、うまく選択できなかったり、テキストの内容がおかしくなってしまったりすることがあります。なぜPDFファイルからのテキスト抽出が難しいのかを、PDFファイルのテキスト化およびデータベース作成を行う団体、FilingDBが報告しています。 PDF text extraction | FilingDB https://www.filingdb.com/pdf-text-extraction ◆読み取り保護 PDFファイルの中には内容が保護されているものが存在します。テキスト自体は正しく表示されていても、テキストをコピーしようとすると「Copying text was denied (テキストのコピーが拒否されました)」といった内容が表示され、テキス

    PDFからテキストを抽出するのはなぜ難しいのか?
    yyoshia
    yyoshia 2020/06/22