DeepMindのDQNからR2D2くらいまでの深層強化学習(Q学習)の発展の歴史を、簡単な解説とtensorflow2での実装例と共に紹介していきます。 まずは深層強化学習の新たな時代を切り開いたDeepMindのDQN(2013)です。論文からはわかりにくいatari環境向けの実装上のテクニックとDQNを構成する各要素が後継手法でどのように改良されていったかのレビューに焦点を置いてBreakout(ブロック崩し)向けにtensorflow2での実装例を紹介します。 DQNシリーズ DQNの進化史 ①DeepMindのDQN - どこから見てもメンダコ DQNの進化史 ②Double-DQN, Dueling-network, Noisy-network - どこから見てもメンダコ DQNの進化史 ③優先度付き経験再生, Multi-step learning, C51 - どこから見て