タグ

2024年3月17日のブックマーク (1件)

  • ペアワイズな評価を用いたLLM性能比較:Bradley-Terryモデルとモデルペア動的サンプリング - とあの方舟

    はじめに 大規模言語モデル (LLM)の性能評価を行う際に、「モデルAとモデルBのどちらの出力の方が望ましいか?」というペアワイズな評価を収集してモデルの性能を比較することが増えています。 その代表例はChatbot Arena (https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard)ですが、今回は彼らの取り組みを紹介する以下の論文[Chiang+24]を読んで、どのようにユーザーによってアノテーションされたペアワイズな評価結果からモデルごとのスコアが計算されているのかを勉強してみました。 arxiv.org 定式化 個のモデルを比較する状況を考えます。今回はペアワイズな評価を行うので、全てのユニークなモデルペアの集合 を定義します。 評価プロセスが始まると、各時刻 ごとにユーザーに対してモデルペア が何らかの確率分布

    ペアワイズな評価を用いたLLM性能比較:Bradley-Terryモデルとモデルペア動的サンプリング - とあの方舟
    morioka
    morioka 2024/03/17