
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
好奇心でスーパーマリオ1-1をクリアする - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
好奇心でスーパーマリオ1-1をクリアする - Qiita
強化学習でスーパーマリオをクリアする話の続きです。読んでいない方は先にそちらを読んでおいた方がい... 強化学習でスーパーマリオをクリアする話の続きです。読んでいない方は先にそちらを読んでおいた方がいいかもしれません。 エージェントは環境から時刻$t$の状態$s_{t}$と報酬$r_{t}$を受け取る エージェントは$s_{t}$に応じた行動$a_{t}$を環境に渡す 環境は$a_{t}$を用いて時刻を1ステップ分進めて時刻$t+1$の状態$s_{t+1}$と報酬$r_{t+1}$を得る エージェントは環境から$s_{t+1}, r_{t+1}$を受け取る 1に戻る 強化学習では以上のような手順を繰り返すことで得られる報酬$r_{t}$の総和(の期待値)を最大化する方策を得ることを目的とします。報酬は学習のための重要なシグナルであり、報酬が全く手に入らない条件では学習は進みません。また、そこまで極端でなくとも稀にしか報酬が得られない(ほとんどの時刻で$r_{t}=0$となる)ような条件では学