
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
【強化学習】ついに人間を超えた!?Agent57を解説/実装してみた(Keras-RL) - Qiita
強化学習の評価でよく使われるAtariのゲームですが、ついに57全てのゲームで人間を超えた手法が現れたよ... 強化学習の評価でよく使われるAtariのゲームですが、ついに57全てのゲームで人間を超えた手法が現れたようです。 早速実装してみました。 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない点はご了承ください ※解釈違いの内容がある可能性もご注意ください(理解が追いついていない部分があります) コード全体 本記事で作成したコードは以下です。 github GoogleColaboratory(実行結果付き) ※GoogleColaboratoryはmultiprocessingの相性が悪いらしく1Actorのみの学習となります) ※MountainCarの学習をのせています 追記:自作フレームワークを作成しています。そちらの実装の方が正確なコードとなります。 目次 構成としては前半が技術解説で後半が実装の説明になります。 Agent57とは NGU(Never Give Up
2020/07/13 リンク