
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
強化学習で山を登りたい - Qiita
強化学習ってかっこいいですよねえ。 今回は, pythonの環境「OpenAIGym」の「MountainCar」で遊んでみた... 強化学習ってかっこいいですよねえ。 今回は, pythonの環境「OpenAIGym」の「MountainCar」で遊んでみたので, 紹介します。 ちなみに, Google Colab使ってやってます。 こちらの記事をかなり参考にしました。OpenAI Gym 入門 さらっとQ学習 学習方法としてQ学習を振り返ります。どうでもええ!という方は, 読み飛ばしてください。 Q学習において, $Q\left( s_{t},a_{t}\right)$は状態行動価値といい, ある状態$st$において, 行動$a_{t}$をとった際の価値を表します。ここで$t$という表記を使ったのは, 時間という意味ではなくある状態という単一的な状態を表します。 ここでいう価値とは, 状態遷移した際に一時的にもらえる報酬ではなく, エピソードを最後まで完遂した際にもらえるであろう累積的な報酬のことをさします。 よって