概要 最も単純な環境で強化学習を構築してみます.2次元のランダムウォークを参考にして,上下左右に動く点粒子をエージェントと設定します. 今回は離散型の強化学習を前提にしているため,上下左右の同じ加速度から一つを毎ループ選択するような形にします. xyどちらかが-1.0~1.0をはみ出したら終了し,その範囲の正方形の下の辺に当たったら報酬を1与えるとします.他は全部報酬0です. 準備 python = "3.6.8" pytorch = "1.6.0" コード ・エージェント(自身の位置を知覚できない設定) import random import numpy as np import torch import torch.nn as nn import torch.nn.functional as F class Agent(nn.Module): def __init__(self,de