はじめに 最適制御 そもそも制御問題とは? 自動制御 フィードバック制御 制御問題の例 最適制御問題 最適制御のまとめ 最適制御から強化学習へ 最適制御の困難 強化学習の形式と最適制御との比較 環境の振る舞いを知る方法は無いのか 強化学習の大まかな流れ モンテカルロ法 TD法 関数近似 最後に 制御の分野と強化学習 基本的思想の違い 実用的問題 PID制御という巨人 はじめに 強化学習といえば、最強の囲碁ソフトAlphaGo に搭載されているアルゴリズムで一躍有名となった分野です。今回は強化学習の特殊な問題設定がどういうものであるかを強調するため、最適制御としての立場から発展させた強化学習を見てみたいと思います。 最適制御 そもそも制御問題とは? 例えば、自動車の速度を調整する場合、タイヤの回転を調整する必要がありますが、私達が実際にやっているのはアクセルやブレーキを踏み込むことだけです。