タグ

ブックマーク / qiita.com/wayama_ryousuke (1)

  • ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた - Qiita

    TL;DR 14個の「日語が話せるLLM」(日製・外国製問わず)の性能を、日語データセット ELYZA-tasks-100 で横断評価しました 海外勢70Bモデルの性能が高いことがわかりました。7Bでは ELYZA-japanese-llama-2 や CALM2 の成績がよかったです モデルの回答・スクリプトへのリンクは記事内に貼っています JGLUE などのベンチマークは、モデルの性能を反映しているのか? 2023年は、かつてないほど多くの LLM が(クローズド・パブリック問わず)公開され、まさに LLM フィーバーの年でした。 一方で、どのモデルが高性能なのか、自分の利用用途に合ったモデルはどれなのか、とお悩みの方も多いのではないでしょうか。 LLM の性能を比較するときに役立つのが、ベンチマークです。 英語圏の LLM に関していえば、MMLU や HellaSwag、Wi

    ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた - Qiita
    nomber3
    nomber3 2023/12/20
  • 1