azma0_0のブックマーク - はてなブックマーク

強化学習：ノート12 - クッキーの日記
読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp 前回：ノート11 ／次回：まだ目次：強化学習読んだページ： 147～156ページ以下、自分の理解。これまでのあらすじ：強化学習の解法であるTD学習は、方策を評価するためにその方策をつかったエピソードをどんどん生成していく点ではモンテカルロ法っぽいけど、価値関数を更新するのに1エピソードの終了まで待たず、次ステップの状態の価値の現在の推定値を用いてステップごとに価値関数を更新していく（ブートストラップする）点が異なる。ブートストラップすると、1エピソードが終わる前に価値の推定を更新できる。基本的にブートストラップする方が賢いし直感的なはず。145～147ページの車通勤問題で、渋滞にはまったら帰宅してみるまでも
azma0_0 2017/03/27
強化学習
リンク
1

はてなブックマーク