
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
強化学習(PPO)での各種Atari2600ゲーム攻略 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
強化学習(PPO)での各種Atari2600ゲーム攻略 - Qiita
論文では、各3回学習を実施して、それぞれの終了時点での100エピソードの平均の平均が結果となっている... 論文では、各3回学習を実施して、それぞれの終了時点での100エピソードの平均の平均が結果となっている模様。一方、本記事の実験では、学習中の100エピソード平均で最も高い時点の重みで10回実行した平均スコア。 右端の数字が今回の実験の結果で、humanのスコアを上回ったものを太字にしている。一部ゲームは結果がないが、これは筆者が最初から諦めて実験を実施していないため。 ゲームごとにチューニングしてあり、元論文に掲載されているスコアを大きく上回っている場合があるが、その辺を考察するのが本記事の主な趣旨となる。 ゲーム名のリンクから筆者が学習させたAIによるプレイ動画へジャンプできる。こちらは上記のスコア集計とは別に、3回実施して最高得点のものを動画化している。Asteroids/Atlantis/Enduro/Gopherについては、ゲームオーバーまで動画にすると長すぎるので途中でカットしてい