Simon Willison が始めた「ペリカンSVGベンチマーク」という有名なLLMベンチマークがある。「自転車に乗るペリカンをSVGで描いて」という一文を各 LLM に投げ、その出力を並べて比較するものだ。モデルごとの能力差が視覚的に一目で分かる点が優れており、新モデルが登場するたびにこのベンチマークで試されることが恒例になっている。 このベンチマークが面白いのは、「pass か fail か」という単純な二値判定でない点だ。最近の SOTA モデルなら、ほぼどれも「ペリカンが自転車に乗っている」ことは分かる絵を作る。差が現れるのは背景や効果線の洗練度などの細部のクオリティだ。 こういったぱっと見で分かるLLMベンチマークをゲーム制作のドメインでできないか、と思って以下のベンチマークを作ってみた。 このベンチマークでは、AIコーディングエージェントに以下のプロンプトを与える。 キャラク

