この前はPhoenixを使ってRAGの実験管理をしてみました。 とはいうものの、Phoenixに事前定義された機能で評価をしただけなので、今回改めてRAGアプリケーションの精度評価について考えてみようと思います。 RAGの評価周りでよく知られたツールとしてRagasがありますが、今回はこちらを使いながら評価について勉強してみようと思います。 Ragas Ragasで用いる評価指標 基本的な評価指標 Faithfulness Answer relevancy Context recall, Context precision Context Relevancy Context entities recall やってみる 評価 今回使用したnotebook 参考文献 感想 Ragas この記事の本題であるRAGの評価について入っていきたいと思います。 github.com docs.ragas