pytestでLLMプロダクトをLLMで評価するLLM-as-a-Judgeをやってみた

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/keitakn

1user がブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

sh19910711 "pytest.mark.parametrize にデータを渡す / 評価項目と評価基準、評価のアウトプット形式の指定 / 予算が許すのであれば開発初期段階から LangSmith のようなLLMプロダクトの検証ツールを導入したほうが楽"

2024/09/14 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

pytestでLLMプロダクトをLLMで評価するLLM-as-a-Judgeをやってみた

概要 LLMプロダクトの品質をLLMで評価するLLM-as-a-Judgeのシンプルな実装を紹介した記事になります。 ... 概要 LLMプロダクトの品質をLLMで評価するLLM-as-a-Judgeのシンプルな実装を紹介した記事になります。対象読者 LLMのAPI（OpenAI, Anthropic等）を使ったプロダクト開発に関わったことがあるまたは興味がある人を対象としています。この記事を書こうと思った動機自分は2023年の夏頃からLLMを利用したプロダクト開発に関わっています。そのなかでもLLMプロダクトのテストには頭を悩ませています。プロンプトを少し調整したり、RAGの元になる参照データを少し追加するだけでプロダクトの品質が大きく変化してしまうことがあります。最近以下の記事を見ました。この記事はLLMプロダクトの評価に関する内容がまとまっておりとても参考になりました。自分もこの記事の影響を受けて、具体的なテストコード実装方法をアウトプットしてみようと思い記事を書きました。 LLM-as-a-

python

ブックマークしたユーザー

sh199107112024/09/14

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx