はじめに みなさん、強化学習してますか? 強化学習はロボットや、囲碁や将棋のようなゲーム、対話システム等に応用できる楽しい技術です。 強化学習とは、試行錯誤を通じて環境に適応する学習制御の枠組みです。教師あり学習では入力に対する正しい出力を与えて学習させました。強化学習では、入力に対する正しい出力を与える代わりに、一連の行動に対する良し悪しを評価する「報酬」というスカラーの評価値が与え、これを手がかりに学習を行います。以下に強化学習の枠組みを示します。 エージェントは時刻 $t$ において環境の状態 $s_t$ を観測 観測した状態から行動 $a_t$ を決定 エージェントは行動を実行 環境は新しい状態 $s_{t+1}$ に遷移 遷移に応じた報酬 $r_{t+1}$ を獲得 学習する ステップ1から繰り返す 強化学習の目的は、エージェントが取得する利得(累積報酬)を最大化するような、状態