サイバーエージェントは6月13日、75億パラメータの日本語大規模視覚言語モデル(Vision Language Model、VLM)を一般公開した。Hugging Faceで商用利用可能なAIモデルや、研究用途でのみ使えるデモを公開中だ。 VLMとは、画像とテキストを複合して扱えるマルチモーダルなAIモデル。画像とテキストを理解できることで「この写真に写っているものは何ですか?」のような質問にも対応できる。米OpenAIの「GPT-4o」などが代表的なモデルで、近年では画像を扱えるAIモデルの進化が急速に進んでいる。 一方で「VLMのほとんどは英語のデータを中心に学習しており、日本文化の理解や日本語での会話に強いVLMは少ない状況」とサイバーエージェントは説明する。このような背景から同社は日本語に強いVLMを公開。日本語大規模言語モデルで合成して作ったデータセットをメインに学習させたという