強化学習 強化学習とは 環境 報酬 エージェントの方策 動的計画法 行動価値関数 予測問題と制御問題 モンテカルロ法 「ソフトコンピューティング」(後半) 北海道大学 大学院情報科学研究科 山下 裕 2009 年後期 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM 強化学習 ソフトコンピューティング 2009 年後期 – 1 / 42 ソフトコンピューティング 2009 年後期 – 2 / 42 強化学習とは 強化学習 強化学習とは 環境 報酬 エージェントの方策 動的計画法 行動価値関数 予測問題と制御問題 モンテカルロ法 環境 強化学習 強化学習とは 環境 報酬 エージェントの方策 動的計画法 行動価値関数 予測問題と制御問題 モンテカルロ法 強化学習 (Reinforcement Learning) とは: あ