読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp 前回:ノート10 / 次回: まだ 目次:強化学習 読んだページ: 119~147ページ 以下、自分の理解。 この本の2部で紹介される手法の特徴(111~113ページ、142ページ): 方策と価値関数を交互に改善していく考え方は共通だが、以下の点が異なる。 環境のダイナミクス(つまり、次のステップの状態の確率分布と報酬の期待値)が予め必要か。ブートストラップするか(つまり、ある状態の価値の推定に、他の状態の価値の推定値を用いるか)。 動的計画法必要。ブートストラップする。 モンテカルロ法不要。ブートストラップしない。 TD学習不要。ブートストラップする。 ブートストラップ=靴ひも。スポットレートやディスカウントファクターの