今回はこのような表を自動で得られるようにすることを目標とします。 LLMには、追加学習による精度の改善だけでなく、入力するプロンプトの改善による精度向上の余地があります。 今回は、通常の機械学習の実験管理とは異なり、LLM, プロンプトの2変数のうち、LLMを固定します。仮に精度が向上した場合、それが「LLMを改善したから」なのか「プロンプトを改善したから」なのかが分からなくなってしまうからです。 プロンプトの評価プロンプトの評価に必要なもの以下の4つが全て揃えば大体どんな評価もできます。 最低限*印の項目があればそれなりの評価ができます。 質問文* LLMの回答* 理想の回答 コンテキスト プロンプトの評価指標例プロンプトの評価指標は、原則「プロジェクト・タスクによりけり」です。 ここでは評価指標を定めるための参考として、いくつか事例を集めたので以下にご紹介します。 事例(1): Pro