研究開発本部 樋口栄作 はじめに最近GPT-4oが発表され、紹介動画を見ているとAIが画像を当たり前に見て、答えるようになっていますね。一緒に散歩したり、買い物したり、ボードゲームをAIと遊ぶなんて日も遠くないのかもしれない、そんな期待のある最近のLLM界隈ですが、この画像を見て回答する、という技術は一体どうやっているのか?気になりますね。 技術を学ぶにも、手元で動かせるものがあるとやりやすい&わかりやすい、ということは往々にあるかと思います。本記事では、画像+テキストなど、いわゆるマルチモーダルの技術に触れてみよう!ということで、LLaVA (Large Language and Vision Assistant) を試してみました。 LLaVA の公式リポジトリでは、学習済みモデルとして7Bのモデル (llama-2-7b-chat をベースにしたモデル) を提供していまして、すぐに推