1年ほど前まで、大規模言語モデル(LLM)は、いわゆるクローズドソースモデル、特にGPT-4が圧倒的な性能を誇っており、さまざまなベンチマーク/リーダーボードにおいて、トップを独占する状態が続いていた。 しかし現在、その状況は大きく変わりつつある。競合クローズドソースモデルの追い上げに加え、オープンソースモデルの躍進により、多極化が進んでいるのだ。開発者やユーザーにとってGPT-4以外の選択肢が大幅に増えたことを意味しており、AIアプリケーションの最適化や低コスト化が一層進む可能性が高まっている。 この状況を如実に示すベンチマークの1つがAIスタートアップGalileoの「Hallucination Index」の最新版だ。Galileoは22の主要な大規模言語モデルを対象に、不正確な情報を生成する傾向(ハルシネーション)を評価する包括的なベンチマークを発表した。その結果、わずか8カ月でオ