エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
PDFの検索(ColPali)→ 画像からキャプションの生成とバウンディングボックスの配置(Florence-2-large)を試してみた
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
PDFの検索(ColPali)→ 画像からキャプションの生成とバウンディングボックスの配置(Florence-2-large)を試してみた
はじめに 今回は、画像(写真や絵、グラフなど)の多いPDFの資料からでも知りたい情報を手っ取り早く検... はじめに 今回は、画像(写真や絵、グラフなど)の多いPDFの資料からでも知りたい情報を手っ取り早く検索したいと思い試したものになります。 通常、PDFを検索する際はOCRで文字情報を抜き出して検索をすることが多いかと思います。 ですが、写真や絵の中に文章があるなどテキスト抽出が難しいがあります。また、画像が多かったりその画像が主題となっているページでは文字情報だけで全容を把握できません。 今回はその対処法としてColPaliモデルというものを使い、PDFページを画像情報として扱った検索を試してみます。 また、検索結果のページ情報として(ページ内にある)画像のキャプション生成とテキストの抽出 & バウンディングボックス(対象のオブジェクトを囲んだ枠線)の配置を行います。 具体的には以下のことを行います。 PDFのページを画像として扱い埋め込みに変換(ColPaliを使用)。 埋め込みを使い検

