日本語LLMの評価に使われるデータセット - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/suzuki_sh

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

日本語LLMの評価に使われるデータセット - Qiita

wandbとStabilityAIのリーダーボードとでは各タスクの評価方法が異なり、全体的にwandbのほうが厳し目に... wandbとStabilityAIのリーダーボードとでは各タスクの評価方法が異なり、全体的にwandbのほうが厳し目になっている点に注意が必要です。慣習として様々なタスクにおけるスコアの平均点を取ってモデルの優劣が測られますが、スコアの評価指標はタスクによって異なるため平均値を見る際には注意が必要だと思います。多くのタスクはaccuracy scoreで評価されますが、異なる場合は以下で説明します。 JGLUE JGLUEは日本語言語理解のベンチマークで、Yahoo! JAPAN（当時）と早稲田大学との共同研究で発表されました。 2022年6月に公開され、当時はおもにBERTを評価するために使われていたようですが、本記事ではGPTの評価に焦点を当てています。 JGLUEは以下の複数のタスクからなります。 MARC-ja Multilingual Amazon Reviews Corpu

ブックマークしたユーザー

arrowKato2024/04/02

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx