
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
LLMをゲームプレイで評価するLMGame-Benchを紹介
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
LLMをゲームプレイで評価するLMGame-Benchを紹介
こんにちは、松尾研究所の奥村です。 LLMの性能向上により、従来のNLPタスクだけではなく、より複雑な推... こんにちは、松尾研究所の奥村です。 LLMの性能向上により、従来のNLPタスクだけではなく、より複雑な推論が求められるタスクでの活用が注目されています。特にゲームプレイは、画面の理解や記憶、複雑な意思決定などが要求されるため、LLMの能力を総合的に評価する有効な手段として期待されています。 今回はLLMをゲームで評価するLMGame-Benchというベンチマークについて紹介します。 公式サイト: 論文: LMGame-Bench概要 ゲーム画面のみから直接行動を決定して評価するのではなく、行動決定を補助するモジュール(harness)をくっつけて評価するのが特徴的です。以下の3つがharnessとして採用されています。各モジュールでの推論は同一のLLM/VLMで行われます。 Perception modules グリッドベースのゲームでは、ゲーム画面をもとにオブジェクトやプレイヤーの位置を