米Metaは9月25日(現地時間)、年次開発者会議「Meta Connect 2024」で、同社のLLM「Llama」の最新版「Llama 3.2」のリリースを発表した。7月に「Llama 3.1」をリリースしたばかりだが、初のマルチモーダルモデルの追加など、大きな更新になった。 画像認識機能の追加 Llama 3.2では、11B(110億)と90B(900億)の2つのモデルで画像認識機能をサポートする。 これにより、表やグラフなどの理解、画像キャプションの生成、画像内のオブジェクトに自然言語で指示する視覚的なグラウンディングなどの画像推論ユースケースが可能になる。 例えば、ユーザーが前年のどの月に売り上げが最も多かったのかをグラフに基づいて質問すると、Llama 3.2は迅速に回答を提供するという。 エッジデバイスに対応した軽量モデル 1Bと3Bの軽量モデルは、要約、指示の追従、書き換え