タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

JavaScriptとAIRに関するabachibiのブックマーク (1)

  • 13_6:報酬を割引き、勾配を重みに適用する – HIM.CO ヒム・カンパニー

    いよいよカートポールサンプルの核心に入っていきます。ここでは、「報酬を割引き、それを反映した勾配を重みに適用する」ということを行います。具体的には、「割引率と、全ゲームで集めた全報酬から、報酬の割引を実行する。そして報酬を正規化して、その比率に応じて勾配を計算し重みに適用する」ということを行います。とはいえもはや、これは日語になっていません。 メインのJavaScriptのforループに入る前で、次の修正を行います。モデル、というよりこのアプリにいよいよ学習させるので、maxStepsPerGameとnumGamesの回数を増やし、オプティマイザーを設定します。また”割引率”も決めます。 // 回数を増やしている。 const maxStepsPerGame = 500; const numGames = 20; const cartPoleSystem = new CartPole(t

  • 1