TL;DR 14個の「日本語が話せるLLM」(日本製・外国製問わず)の性能を、日本語データセット ELYZA-tasks-100 で横断評価しました 海外勢70Bモデルの性能が高いことがわかりました。7Bでは ELYZA-japanese-llama-2 や CALM2 の成績がよかったです モデルの回答・スクリプトへのリンクは記事内に貼っています JGLUE などのベンチマークは、モデルの性能を反映しているのか? 2023年は、かつてないほど多くの LLM が(クローズド・パブリック問わず)公開され、まさに LLM フィーバーの年でした。 一方で、どのモデルが高性能なのか、自分の利用用途に合ったモデルはどれなのか、とお悩みの方も多いのではないでしょうか。 LLM の性能を比較するときに役立つのが、ベンチマークです。 英語圏の LLM に関していえば、MMLU や HellaSwag、Wi
![ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/0582e2f09faaad3e03740a9da83c2dab2081b047/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-f625e957b80c4bd8dd47b724be996090.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9RUxZWkEtdGFza3MtMTAwJTIwJUUzJTgxJUE3TExNMTQlRTUlODAlOEIlRTMlODElQUUlRTYlOTclQTUlRTYlOUMlQUMlRTglQUElOUUlRTYlODAlQTclRTglODMlQkQlRTMlODIlOTIlRTYlQTglQUElRTYlOTYlQUQlRTglQTklOTUlRTQlQkUlQTElRTMlODElOTclRTMlODElQTYlRTMlODElQkYlRTMlODElOUYmdHh0LWNvbG9yPSUyMzNBM0MzQyZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZ0eHQtY2xpcD1lbGxpcHNpcyZ0eHQtYWxpZ249bGVmdCUyQ21pZGRsZSZzPWI2NWRjZTE4YmQ0ODg0YzNiMGMwOTBiMzU3OGVhYzVk%26mark-x%3D142%26mark-y%3D151%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTcxNiZ0eHQ9JTQwd2F5YW1hX3J5b3VzdWtlJnR4dC1jb2xvcj0lMjMzQTNDM0MmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzImdHh0LWFsaWduPWxlZnQlMkN0b3Amcz05ZDVkNjBmYmM5NWUyMjQ4MTI3ZDFjNjYxMDhkZDIwMQ%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D87cde26c04858e64609b63ebaf51f44a)