DeepMind論文(2016/6) 「Unifying Count-Based Exploration and Intrinsic Motivation 」 記載のPseudo-count を用い、Deep Reinforcement Learningでの最難関ゲームであるMontezuma's Revengeを評価。Pseudo-countに加え、報告者の独自機能OHL(On-Hightscore-Learning)を含めて評価したところ、DeepMindの論文を超える探索範囲拡大に成功しました。また、OpenAI Gymで1位を獲得し(2016/10/13~2017/3/17)、サンフランシスコにあるOpenAIの招待を受け、説明に行ってきました。ブログ(http://itsukara.hateblo.jp/)に状況を逐次報告しています。 (注) 実験データ掲載用HTTPサーバを変更
![人工知能概論 1](https://cdn-ak-scissors.b.st-hatena.com/image/square/d2d25d3c5ac3e2018d863bfcd6d4de31cd2d0a26/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2F1-150410110315-conversion-gate01-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)