PDFの検索（ColPali）→ 画像からキャプションの生成とバウンディングボックスの配置（Florence-2-large）を試してみた

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/yumefuku

1user がブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

PDFの検索（ColPali）→ 画像からキャプションの生成とバウンディングボックスの配置（Florence-2-large）を試してみた

はじめに今回は、画像（写真や絵、グラフなど）の多いPDFの資料からでも知りたい情報を手っ取り早く検... はじめに今回は、画像（写真や絵、グラフなど）の多いPDFの資料からでも知りたい情報を手っ取り早く検索したいと思い試したものになります。通常、PDFを検索する際はOCRで文字情報を抜き出して検索をすることが多いかと思います。ですが、写真や絵の中に文章があるなどテキスト抽出が難しいがあります。また、画像が多かったりその画像が主題となっているページでは文字情報だけで全容を把握できません。今回はその対処法としてColPaliモデルというものを使い、PDFページを画像情報として扱った検索を試してみます。また、検索結果のページ情報として（ページ内にある）画像のキャプション生成とテキストの抽出 & バウンディングボックス（対象のオブジェクトを囲んだ枠線）の配置を行います。具体的には以下のことを行います。 PDFのページを画像として扱い埋め込みに変換（ColPaliを使用）。埋め込みを使い検

ブックマークしたユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx