エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
MT-Bench の概要|npaka
「MT-Bench」の概要についてまとめました。 1. MT-Bench「MT-Bench」は、80の高品質でマルチターンの質... 「MT-Bench」の概要についてまとめました。 1. MT-Bench「MT-Bench」は、80の高品質でマルチターンの質問を含む、慎重にキュレーションされたLLMのベンチマークです。これらの質問は、LLMがマルチターンダイアログのモデルの会話の流れと指示に従う能力の評価を目的としており、「一般的なユースケース」と「挑戦的な指示」の両方が含まれています。 次の8つの主要なカテゴリを評価します。 ・Writing ・Roleplay ・Extraction ・Reasoning ・Math ・Coding ・Knowledge I (STEM) ・Knowledge II (humanities/social science) カテゴリごとに10個のマルチターン質問、合計160個の質問セットになります。 2. 採点方法人間の嗜好はゴールドスタンダードであると信じていますが、収集が遅くて高
2023/12/28 リンク