LLMの性能評価指標としてのMMLU指標の概要・評価方法。内部ではプロンプトエンジニアリングとして0-shot Chain of Thoughtが使われている。

kiririmode のブックマーク 2024/06/02 02:50

<blockquote class="hatena-bookmark-comment"><a class="comment-info" href="https://b.hatena.ne.jp/entry/4754309968418270400/comment/kiririmode" data-user-id="kiririmode" data-entry-url="https://b.hatena.ne.jp/entry/s/note.com/fair_panda6914/n/ne1e49b22798e" data-original-href="https://note.com/fair_panda6914/n/ne1e49b22798e" data-entry-favicon="https://cdn-ak2.favicon.st-hatena.com/64?url=https%3A%2F%2Fnote.com%2Ffair_panda6914%2Fn%2Fne1e49b22798e" data-user-icon="/users/kiririmode/profile.png">生成AIの能力をどう評価するか？ ~激化するLLM競争を正しく見極めるために~｜こへもこ</a><ul class="comment-tag" style="list-style: none; margin: 0px;"><li style="float: left">[<a href="https://b.hatena.ne.jp/q/llm">llm</a>]</li><li style="float: left">[<a href="https://b.hatena.ne.jp/q/ai">ai</a>]</li><li style="float: left">[<a href="https://b.hatena.ne.jp/q/performance">performance</a>]</li><li style="float: left">[<a href="https://b.hatena.ne.jp/q/promptengineering">promptengineering</a>]</li></ul><br><p style="clear: left">LLMの性能評価指標としてのMMLU指標の概要・評価方法。内部ではプロンプトエンジニアリングとして0-shot Chain of Thoughtが使われている。</p><a class="datetime" href="https://b.hatena.ne.jp/kiririmode/20240602#bookmark-4754309968418270400"><span class="datetime-body">2024/06/02 02:50</span></a></blockquote><script src="https://b.st-hatena.com/js/comment-widget.js" charset="utf-8" async></script>

このブックマークにはスターがありません。
最初のスターをつけてみよう！