読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp 前回:ノート11 / 次回: まだ 目次:強化学習 読んだページ: 147~156ページ 以下、自分の理解。 これまでのあらすじ: 強化学習の解法であるTD学習は、方策を評価するためにその方策をつかったエピソードをどんどん生成していく点ではモンテカルロ法っぽいけど、価値関数を更新するのに1エピソードの終了まで待たず、次ステップの状態の価値の現在の推定値を用いてステップごとに価値関数を更新していく(ブートストラップする)点が異なる。 ブートストラップすると、1エピソードが終わる前に価値の推定を更新できる。基本的にブートストラップする方が賢いし直感的なはず。145~147ページの車通勤問題で、渋滞にはまったら帰宅してみるまでも
![強化学習: ノート12 - クッキーの日記](https://cdn-ak-scissors.b.st-hatena.com/image/square/8dac689ad632b66057a8149222ff0a5cc69a3e42/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fc%2Fcookie-box%2F20160416%2F20160416160036.png)