TL;DRLLMアプリケーションの運用は従来のMLOpsの手法が通じず、かつ出力の評価が難しいことなどが起因して、非常に難しい上記の課題を解決するために、Langfuseを中枢に据えたLLMOps基盤を用いて、オンライン評価とオフライン評価でリリースを挟み込んだ評価ドリブンなリリースサイクルを回していくのがおすすめ上記を実践するためにまずはアプリケーションのログ・トレースを保存するところから始める次にプロンプトマネジメント導入と、評価データセット作りを数件からでよいので始めるそこからプロンプト実験と、LLM-as-a-JudgeなどのLLM Evaluatorの仕組みを、評価基準など不完全で良いので導入してみる(ドメインエキスパートやユーザーのアノテーションの仕組みを導入できるならそちらも並行して検討する)これらをまずは実践することで、評価ドリブンなリリースライフサイクルが、評価データセッ

