ブックマーク / zenn.dev/aratako_lm (1)

  • LLMの日本語ロールプレイ能力を計測するベンチマーク「Japanese-RP-Bench」の概要と評価結果などのまとめ

    はじめに LLMのマルチターン対話における日語ロールプレイ能力を計測するベンチマーク「Japanese-RP-Bench」を構築し、以下のリポジトリにて公開しました。 記事では、構築に至った経緯やベンチマークの概要、評価結果などをまとめます。ベンチマークの実行方法についてはリポジトリをご確認ください。 また、結果だけを見たい方は結果のセクションをご覧ください。 概要 構築に至った背景 今回、以下のような背景・考えからこのベンチマークの構築に至りました。 LLMのロールプレイ的な用途での需要は比較的高いが、このタスクでの性能を計測するようなベンチマークが現状日語では存在しない Japanese MT-BenchにはRoleplayのカテゴリが存在するが、大したロールプレイにはなっていない ロールプレイタスクに限らず、「対話の楽しさ」のような抽象的なものを測ろうとするオープンなLLMベン

    LLMの日本語ロールプレイ能力を計測するベンチマーク「Japanese-RP-Bench」の概要と評価結果などのまとめ
    yug1224
    yug1224 2024/10/02
  • 1