なぜ忖度は起きるのか 自分の5問だけだと偶然かもしれない。 なので研究側の知見を見ると、これは個人の話じゃありませんでした。 AIが忖度する現象はsycophancy(おべっか、追従)と呼ばれていて、LLM研究者の間では知られた問題です。 主要な原因の一つはRLHF(人間のフィードバックによる強化学習)にあります。 モデルの回答を人間が評価し、「良い回答」に報酬を与えるプロセスで、評価者は自分の意見に沿った回答を高評価しやすい。 Sharma らの実験では、人間が正解よりsycophancyな回答を好んだケースが35%以上ありました[2]。 結果として報酬モデルにも「同意する回答=良い回答」という傾向が学習され、モデル本体に強化されます。 プロファイルを渡すと、「ユーザーの期待」の推定精度が上がり、忖度もより巧妙になります。 精度と忖度は同じ入力(プロファイル)から両方生まれます。 プロフ

