
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Q-learningで迷路を解く!(強化学習) - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Q-learningで迷路を解く!(強化学習) - Qiita
# ハイパーパラメータ gamma = 0.7 alpha = 0.5 epsiron = 0.3 # 初期値 pos_now = 0 step = 0 # 報酬 r... # ハイパーパラメータ gamma = 0.7 alpha = 0.5 epsiron = 0.3 # 初期値 pos_now = 0 step = 0 # 報酬 reward = 10 steps = [] for episode in range(50): while True: # epsiron greedy法 random_value = random.random() if random_value>epsiron : # print("Q値更新") # 行動 act = meiro_env[pos_now:pos_now+1].max().sort_values(ascending=False) act_now = act.index[0] # maxQのときの位置 max_Q_pos = meiro_next_act[act_now][pos_now] # maxQ(s,t