目次 強化学習とは 環境 解決方法 ハンズオン 強化学習とは 強化学習が扱う問題 変化する環境下で判断・行動し課題を解決する問題 エージェントが環境の状態を見て行動をし、その行動により環境の状態が更新される。望む状態を目指す。 問題の例 ゲーム 制御 広告 大抵の場合、リアルな環境かシミュレータで訓練をする。 強化学習の訓練方法 状態がどれくらい良いかを「報酬」として数値化して、より多くの報酬が得られるように訓練する。 例えば、 * 勝った → +1 * 負けた → -1 のように自分で決める。 環境 OpenAIのgymというライブラリが有名。 いくつかの問題・ゲームのシミュレーション環境 統一されてたインターフェースを持つ インターフェースが統一されていると、 自作の環境をgymの環境と同じように扱う拡張が可能 作ったモデルのコードが再利用できる(かも) gymの環境の例 倒立振子 下