前回の記事でLLMアプリケーションの評価について基礎から運用まで丁寧に解説いたしました。 この記事では、評価方法の一部であるLLM-as-a-Judgeについて詳しく解説したいと思います。 LLMアプリケーションの評価といえば、LLM-as-a-Judgeだというように結びつける方もいらっしゃいますが、必ずしもそうではありません。 というのも、LLMアプリケーションの評価には、LLM以外で評価するLLM-as-a-Judge以外にもいろんな方法や観点があるからです。 評価方法や指標について多くの論点が、LLMアプリケーションに限らず、機械学習アプリケーション全般に共通しています。 この10年ぐらいで、機械学習アプリケーションの評価についてはかなりの議論がなされてきており、ある程度成熟してきました。 一方、LLMでLLMの出力を評価するLLM-as-a-Judgeについては、GPT-3.5や