こんにちは。NEO(x) 機械学習エンジニアの宮脇(@catshun_)です。 LLM から望ましい出力を得るための評価については、評価セットを用いた定量評価などが挙げられますが、本記事では システムへのLLM導入 という側面から動作検証に焦点を当てた話をコラムとして記述します。 LLM の評価に関する紹介は、以下のブログで紹介しているのでこちらもご参照いただけると嬉しいです。 なお本記事は社内に向けたキャッチアップ資料として作成しており、加筆修正する可能性がありますが、本記事を読んだ方の議論のネタ程度になってくれれば幸いです。 おことわり 解釈や引用に誤りがありましたらご指摘いただけると幸いです。 本記事では詳細な解説を含みません。詳細な調査等は必ず参照元の論文等をご確認ください。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 動作検証とは? 動作検証 (behav