「LLM」の ベンチマーク をまとめました。 1. 人間を評価者としたベンチマーク最も信頼できるベンチマーク。コストがかかるのが欠点。 ・ELYZA Tasks 100 (ELYZA)【日本語AI】 ・日本語チャットボットアリーナ (yutohub) 【日本語AI】 ・Chatbot Arena (LMSys) 2. GPT-4を評価者としたベンチマーク冗長な回答を高く評価しやすいことや、GPT-4に似た回答を高く評価しやすいのが欠点。 ・Nejumi LLMリーダーボード Neo [MT-Bench] (wandb) 【日本語AI】 ・The Rakuda Ranking of Japanese AI (YuzuAI)【日本語AI】 ・MT-Bench (LMSys) ・Alpaca-Eval (Tatsu Lab) 3. 一問一答によるベンチマークテキスト生成 (文章生成、コード生成、