タグ

ブックマーク / note.com/qunasys (1)

  • Table TransformerとGPT-4Vを用いたPDF内の表の解析|QunaSys

    RAGは非常に有用なツールですが、PDFの論文などを扱う際には、表データを正しく読み取れない場合があります。 表の構造を適切に処理することは難しく、いくつかの改善策が提案されています。 例えば、RAGを構築するのに使われるライブラリであるLlamaIndexのドキュメントに以下のような情報があります。 このドキュメントでは表を含むデータを扱う方法として、PDFを一旦すべて画像データに変換し、画像として表の形式を保持したままGPT-4Vでデータを解析することを提案しています。 ただ、PDF1ページ分の画像をそのままGPT-4Vに解析させても精度はあまり良くないようで、後述するTable Transformerを使って表部分の画像のみ抽出してから解析を行うことで、より良い結果が得られたのことでした。 記事では、この方法を用いてPDF内の表の解析を試してみます。 手順としては 1. PDFの全

    Table TransformerとGPT-4Vを用いたPDF内の表の解析|QunaSys
  • 1