はじめに LLMの応用先の一つに,テキストに加えて画像や音声といった複数のモーダルの入出力を行うマルチモーダル情報処理があります.例えば,2023年3月に発表されたGPT-4の論文では,テキストと画像から構成されるプロンプトを入力することで,画像の内容に関して高度な対話を実現できることが報告されています.GPT-4のように,テキスト以外の情報を考慮して対話を行うタスクはマルチモーダルチャットと呼ばれています. マルチモーダルチャットを実現する方法として,テキストの情報のみで事前学習されたLLMを改良し,マルチモーダル情報を扱えるようにする手法が多数提案されています.例えば,テキストと画像を入力可能なタスクであれば,画像データで学習された画像のエンコーダとなるモデルをLLMに接続することで,画像とテキストを同じ枠組みで処理する手法(BLIP-2やMiniGPT-4)が提案されています. 今回