
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
VLMはBounding Boxを理解できるよって話 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
VLMはBounding Boxを理解できるよって話 - Qiita
この記事はQiita LLM・LLM活用 Advent Calendar 2024の7日目の記事です。 ここではQwen2-VLを例に、画像... この記事はQiita LLM・LLM活用 Advent Calendar 2024の7日目の記事です。 ここではQwen2-VLを例に、画像に対するBounding Boxを入力や出力に含む対話生成の例を見ていきます。 なおこの記事中における「理解」は、バウンディングボックスの概念が伝わるのみならず、テキストで表現されたバウンディングボックスの座標が画像中の正確な座標と結びつくことを意図しています。 VLMがBounding Boxを理解できる理由 一部のVLMは訓練時に明示的にBounding Boxが含まれたテキストでの学習を行っています。 Bounding Boxを明示的に学習しているVLMの例としては、LLaVA 1.5やQwen-VL (Qwen2-VL含む)、Fuyu-8Bが挙げられます。日本語特化モデルならLLaVA 1.5の学習に倣っているllava-calm2-sigli