並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 1 件 / 1件

新着順 人気順

WMTの検索結果1 - 1 件 / 1件

  • 日本語LLM評価 - 総合

    下表で選択したLLMの日本語タスク、日本語MT-Bench、英語タスクの平均スコアが棒グラフで可視化されます。左上のボタンでグラフの横長・縦長(スマートフォンでは縦長が推奨)、右上のボタンでLLMの並び順を選択できます。サイト左上の🔗のアイコンから、選択したモデルに対応したパーマリンクをコピーできます。なお、LLMによっては、評価を実施していないタスクがあるため、平均スコアや並び順からモデルの優劣を議論するのが適切ではない場合があります。例えば、GPT-3.5やGPT-4は日本語・英語タスクでも高い性能を示すと推測されますが、評価を実施していないため、これらのタスクの平均スコアは0として扱われ、並び順も末尾になります。 モデル 平均 日本語 日本語 MT-Bench 英語 名前 SortKey 種別 Size (B) 日 日 (MTB) 英 JCom JEMHopQA NIILC JSQ

      日本語LLM評価 - 総合
    1