タグ

ブックマーク / zenn.dev/duo3 (1)

  • RAGの精度評価をRagasで自動化してみた 〜 いつまで「目視確認」で消耗してるの?

    RAGの精度評価をRagasで自動化してみた:いつまで「目視確認」で消耗してるの? はじめに:「なんとなく動く」からの脱却 RAG(Retrieval-Augmented Generation)アプリケーション開発における最大の敵は、開発者自身の「主観」だ。 「いくつか質問してみたけど、いい感じに回答してくれている気がする」 「プロンプトを変えたら、なんとなく良くなった気がする」 PoC(概念実証)段階ではこれでも許されるが、プロダクション運用やチーム開発において「気がする」は通用しない。上司やクライアントからの「で、精度は何%なの?」という問いに、数字で答えられなければエンジニアとしての信頼に関わる。 そこで導入するのが、**「LLM-as-a-Judge(LLMを用いてLLMを評価する)」**フレームワークである Ragas だ。この記事では、Ragasを用いてRAGの精度を定量的に計

    RAGの精度評価をRagasで自動化してみた 〜 いつまで「目視確認」で消耗してるの?
    CLSmooth
    CLSmooth 2026/01/02
  • 1