中川研機械学習勉強会 2007/6/7 Apprenticeship Learning via Inverse Reinforcement Learning by Pieter Abbeel and Andrew Y. Ng (ICML 2004) 吉田 稔 強化学習 Reinforcement Learning • 環境と、そこで行動するエージェントがいるとき、 「エージェントがどのような行動をとればいいか」 を学習する。 – 「状態」と、それを遷移させる「行動」がある。 – Policy(方策、行動則): 「状態」に応じた「行動」を決め る。 – Reward function(報酬関数):状態が望ましいか否か をスコア付けする。 – Value function(価値関数):その状態から、最終的に 望ましい結果になるかどうかをスコア付けする • 現時点の状態のみならず、将来