nomber3のブックマーク - はてなブックマーク

ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた - Qiita
TL;DR 14個の「日本語が話せるLLM」（日本製・外国製問わず）の性能を、日本語データセット ELYZA-tasks-100 で横断評価しました海外勢70Bモデルの性能が高いことがわかりました。7Bでは ELYZA-japanese-llama-2 や CALM2 の成績がよかったですモデルの回答・スクリプトへのリンクは記事内に貼っています JGLUE などのベンチマークは、モデルの性能を反映しているのか？ 2023年は、かつてないほど多くの LLM が（クローズド・パブリック問わず）公開され、まさに LLM フィーバーの年でした。一方で、どのモデルが高性能なのか、自分の利用用途に合ったモデルはどれなのか、とお悩みの方も多いのではないでしょうか。 LLM の性能を比較するときに役立つのが、ベンチマークです。英語圏の LLM に関していえば、MMLU や HellaSwag、Wi
nomber3 2023/12/20
LLM
リンク
1

はてなブックマーク