エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
LLM のベンチマーク まとめ|npaka
「LLM」の ベンチマーク をまとめました。 1. 人間を評価者としたベンチマーク最も信頼できるベンチマー... 「LLM」の ベンチマーク をまとめました。 1. 人間を評価者としたベンチマーク最も信頼できるベンチマーク。コストがかかるのが欠点。 ・ELYZA Tasks 100 (ELYZA)【日本語AI】 ・日本語チャットボットアリーナ (yutohub) 【日本語AI】 ・Chatbot Arena (LMSys) 2. GPT-4を評価者としたベンチマーク冗長な回答を高く評価しやすいことや、GPT-4に似た回答を高く評価しやすいのが欠点。 ・Nejumi LLMリーダーボード Neo [MT-Bench] (wandb) 【日本語AI】 ・The Rakuda Ranking of Japanese AI (YuzuAI)【日本語AI】 ・MT-Bench (LMSys) ・Alpaca-Eval (Tatsu Lab) 3. 一問一答によるベンチマークテキスト生成 (文章生成、コード生成、
2023/08/26 リンク