エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Langfuse で LLM の出力を評価し、その信頼度を測る
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Langfuse で LLM の出力を評価し、その信頼度を測る
はじめに こんにちは。クラウドエース第三開発部の泉澤です。以前はデータソリューション系の開発部に所... はじめに こんにちは。クラウドエース第三開発部の泉澤です。以前はデータソリューション系の開発部に所属し、現在は生成AI を活用したサービス開発に取り組んでいます。 LLM アプリの自動評価手法として、LLM に評価を実施させる LLM‐as‐a‐Judge が注目されています。しかし、その自動評価結果がどの程度信頼できるのか、またどのように改善していけばよいのかを検証するのは容易ではありません。 そこで、本記事では、Langfuse を活用して以下のプロセスを実践する方法を考え、実際に LLM に生成(翻訳)してもらったデータを使い、LLM-as-a-Judge の評価と人間による評価の一致度の算出までを試してみました。 検証方法の流れやイメージ図は以下の通りです。 LLM アプリからのトレース送信 LLM‐as‐a‐Judge による自動評価 アノテーション(人間による評価・スコアリング

