moriokaのブックマーク / 2024年3月17日

ペアワイズな評価を用いたLLM性能比較：Bradley-Terryモデルとモデルペア動的サンプリング - とあの方舟

はじめに大規模言語モデル（LLM）の性能評価を行う際に、「モデルAとモデルBのどちらの出力の方が望ましいか？」というペアワイズな評価を収集してモデルの性能を比較することが増えています。その代表例はChatbot Arena (https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard)ですが、今回は彼らの取り組みを紹介する以下の論文[Chiang+24]を読んで、どのようにユーザーによってアノテーションされたペアワイズな評価結果からモデルごとのスコアが計算されているのかを勉強してみました。 arxiv.org 定式化個のモデルを比較する状況を考えます。今回はペアワイズな評価を行うので、全てのユニークなモデルペアの集合を定義します。評価プロセスが始まると、各時刻ごとにユーザーに対してモデルペアが何らかの確率分布

はてなブックマーク

タグ

2024年3月17日のブックマーク (1件)

ペアワイズな評価を用いたLLM性能比較：Bradley-Terryモデルとモデルペア動的サンプリング - とあの方舟

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス