はじめに 前回は 足し算ゲームをChainerを使って強化学習できるか? で単純な足し算ゲームの強化学習をやってみました。 一応基本はわかってきたつもりなので、ゲームっぽいものに挑戦したいと思います。 そこでゲーム環境を作り、その上でゲームを実装し、そのゲームをChainerにやらせるというアプローチをとることにしました。 ゲーム環境 イメージはASCII文字がシンボルで、画面の大きさが横40x縦24 のゲーム環境 入力は「上下左右」と「Aボタン」「Bボタン」。それぞれ独立として、2^6=64パターンの入力がある。 ゲーム開発時用として、Terminalからのキー入力(ikjl + xz)でプレイできるデバッグモードがある。 でも、押しっぱなしにすると入力溜まってしまって辛い・・・ 同時押しできないから辛い・・・ 学習の様子を見るために、TCP/IPで通信して、直前のプレイの様子を表示する

