関連研究(続きは記事末尾にあります) ■OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化 ■Microsoftの画像セグメンテーション新技術「SEEM(Segment Everything Everywhere Model)」の凄さ、Meta AIのSAMとの違い 従来の課題 視覚情報の処理能力不足 従来のLLMは、言語タスクに対する能力は優れていましたが、多モーダル(視覚と言語)のアップデートはあまり行われていませんでした。要するに、視覚的な情報を処理する能力には限界がありました。 高性能な画像分析LLMの需要 多くの開発者や研究者が高性能な画像分析LLMを求めていましたが、これまでのところそのようなモデルは一般に提供されていませんでした。 これらの課題を解決するために、LLaVA-1.5が開発されました。このモデルは、視覚エ