Weights & Biases のnoteをフォローしてくださいこの度Weights & Biases Japan(W&B Japan)は、7月より Nejumi.ai にて運営してきたLLM(大規模言語モデル)の日本語評価リーダーボードをアプデートします(2023年12月27日に公開予定)。本稿ではアップデートに至るまでの経緯と私たちがLLM評価について学んだことを共有したいと思います。 そもそもなぜリーダーボード?昨年OpenAIがChatGPTをリリースしてから1年余りが経過し、世界中でLLM開発が多くの企業のAI開発に大きな渦を巻き起こしました。毎日のように新しいLLMモデルがリリースされ、基盤モデル、継続事前学習、ファインチューニング、高速化、マルチモーダル、などなど、その開発の幅も極めて広くなってきています。一方で多くの開発は英語を中心に行われており、海外では高く評価されてい