こんにちは。PharmaXの上野です。 今回はLLMアプリケーションを評価する上で知っておくべき評価の基本をきちんと整理したいと思います。 これまで何度かLLMアプリケーションの評価について語ってきました。 運用についても記事や発表の形でシェアを行ってきました。 ですが、まだまだ「評価とはなにか?」という基本的なところで躓いてしまっている方も多い印象なので、今回は前提から丁寧に評価の全体像をまとめていきたいと思います。 LLMアプリケーションを運用している方の参考になれば嬉しいです! なぜLLMアプリケーションを評価する必要があるのか LLMをアプリケーションに組み込んでいると、LLMの出力を評価する必要が出てきます。 LLMの「出力は確率的である(毎回異なる)」ためです。 また、LLMの出力はハルシネーションを含む可能性がありますし、間違いではないにしてもサービス提供者の意図とは違った出