今年(2016年)の8月9月にPFNのインターンに参加させてもらいました. そのインターンで,ICML2016にて発表されたControl of Memory, Active Perception, and Action in Minecraft (Oh et al. 2016)で提案されたニューラルネットを使った強化学習のモデルを実装しました.この記事はその解説です.実装にはChainerを使いました. 実装はGithubにあります. ちなみに,レッドブルは一度も飲みませんでした(麦茶ばかり飲んでいた). そもそも強化学習? DQNとはなんぞや? ugonamaさんがめっちゃわかりやすい記事を書いてくれているのでそっちを参照してください. Oh(2016)の概要 Oh(2016)は,部分的な観測(Partial observation)しか与えられないようなタスクを解くことを主眼として,