10月14日 MiniGPT-v2「MiniGPT-v2」は、キング・アブドラ科学技術大学(KAUST)とMetaが開発した様々な視覚言語タスクを統合インターフェイスで利用できるモデルです。 (1) Grounding: 画像 → 画像部分の説明+バウンディングボックス (2) Refer: 画像+画像部分の指示 → バウンディングボックス (3) Detection: 画像+画像部分の指示 → 画像部分の説明 (4) Identify: 画像+バウンディングボックス → 画像部分の説明 (5) VQA: 画像+質問 → 応答 (6) No Tag: タグなしのフリースタイル