エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
MuZeroの論文を読む その10(再分析、評価) - TadaoYamaokaの開発日記
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
MuZeroの論文を読む その10(再分析、評価) - TadaoYamaokaの開発日記
今回で、最後です。 付録H 再分析 MuZeroのサンプル効率を改善するために、MuZero Reanalyzeという、わ... 今回で、最後です。 付録H 再分析 MuZeroのサンプル効率を改善するために、MuZero Reanalyzeという、わずかに異なるアルゴリズムを導入した。 MuZero Reanalyzeは過去のタイムステップを再検討し、最新のモデルパラメーターを使用して探索を再実行するため、元の探索よりも方策の品質が向上する可能性がある。 この新しい方策は、MuZero訓練中の更新の80%の方策目標として使用される。 さらに、最近のパラメータに基づくターゲットネットワークを使用して、価値関数のよる新鮮で安定したnステップブートストラップターゲットを提供する。 さらに、他のいくつかのハイパーパラメータが調整された。 主にサンプルの再利用を増やし、価値関数の過剰適合を回避するためである。 具体的には、状態ごとに0.1ではなく2.0サンプルが取り出された。 価値目標は、方策および報酬目標の1.0の重みと比