エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
日本語LLMの評価に使われるデータセット - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
日本語LLMの評価に使われるデータセット - Qiita
wandbとStabilityAIのリーダーボードとでは各タスクの評価方法が異なり、全体的にwandbのほうが厳し目に... wandbとStabilityAIのリーダーボードとでは各タスクの評価方法が異なり、全体的にwandbのほうが厳し目になっている点に注意が必要です。 慣習として様々なタスクにおけるスコアの平均点を取ってモデルの優劣が測られますが、スコアの評価指標はタスクによって異なるため平均値を見る際には注意が必要だと思います。 多くのタスクはaccuracy scoreで評価されますが、異なる場合は以下で説明します。 JGLUE JGLUEは日本語言語理解のベンチマークで、Yahoo! JAPAN(当時)と早稲田大学との共同研究で発表されました。 2022年6月に公開され、当時はおもにBERTを評価するために使われていたようですが、本記事ではGPTの評価に焦点を当てています。 JGLUEは以下の複数のタスクからなります。 MARC-ja Multilingual Amazon Reviews Corpu