つまりなにしたの ブロック崩しなどで一世を風靡したDeep Q NetworkをChainerで実装して、OpenAIの環境で育てた。 youtu.be 基本的な強化学習の流れ ゲームそのものをEnvironment ゲームで言うプレイヤーをAgent プレイヤーの操作をAction プレイヤーはプレイの結果をゲーム画面を観察、つまりObservationして確認する(日本語に組み込むと変な感じ ゲーム画面には、ゲームの状態(残りのブロックの画像とか)、Stateが表示される。 ゲーム画面には、ゲームのスコア(上がると嬉しいもの)、Rewardも表示される。 プレイヤーは操作とゲーム画面の組み合わせからこれはうまくいった、うまくいく流れ来たけどなんかこれ以上スコア上がらん…大きく変えるか! とかを繰り返して学習を勧めていく。 (英単語はOpenAI Gymの表現と合わせている。) 基本的な
![週末に3DSもポケモンもなかったのでChainerでDQNを育てた話。 - EnsekiTT Blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/8432bc8e3295300bd6a3e58e4c8c73948dfd0f16/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fe%2Fensekitt%2F20161128%2F20161128040019.png)