タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

pdfとパーシングに関するni66lingのブックマーク (1)

  • pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

    これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ

    pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
    ni66ling
    ni66ling 2024/02/24
    Unstructured, Grobid, PyMuPDFを検証してPyMuPDFが相対的によく、二段カラムにもおおよそ対応できたとのこと
  • 1