導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 本記事では、ドメインに特化したRAGの性能を検証するためのフレームワーク、RAGEvalについて解説します。 サマリー RAGの手法は日夜研究され、新しい手法は次々に提案されています。RAGに限った話ではないですが、システムの性能を計測するには評価するための方法が重要です。そしてRAGの性能を計測するにはドキュメントと質問、そして正解ドキュメントと正答のセットが必要になります。 RAGEvalは、これらの計測に必要なデータをLLMとそのドメインに使用するサンプルのドキュメントを用いて自動的に生成する事が可能となっています。 問題意識 RAGのテストデータを用意するのは大変 RAGの評価には必ず評価するため