エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
pytestでLLMプロダクトをLLMで評価するLLM-as-a-Judgeをやってみた
概要 LLMプロダクトの品質をLLMで評価するLLM-as-a-Judgeのシンプルな実装を紹介した記事になります。 ... 概要 LLMプロダクトの品質をLLMで評価するLLM-as-a-Judgeのシンプルな実装を紹介した記事になります。 対象読者 LLMのAPI(OpenAI, Anthropic等)を使ったプロダクト開発に関わったことがあるまたは興味がある人を対象としています。 この記事を書こうと思った動機 自分は2023年の夏頃からLLMを利用したプロダクト開発に関わっています。そのなかでもLLMプロダクトのテストには頭を悩ませています。 プロンプトを少し調整したり、RAGの元になる参照データを少し追加するだけでプロダクトの品質が大きく変化してしまうことがあります。 最近以下の記事を見ました。 この記事はLLMプロダクトの評価に関する内容がまとまっておりとても参考になりました。 自分もこの記事の影響を受けて、具体的なテストコード実装方法をアウトプットしてみようと思い記事を書きました。 LLM-as-a-



2024/09/14 リンク