MuZeroの論文を読むその１０（再分析、評価） - TadaoYamaokaの開発日記

テクノロジーカテゴリーの変更を依頼記事元:

tadaoyamaoka.hatenablog.com

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

MuZeroの論文を読むその１０（再分析、評価） - TadaoYamaokaの開発日記

今回で、最後です。付録H 再分析 MuZeroのサンプル効率を改善するために、MuZero Reanalyzeという、わ... 今回で、最後です。付録H 再分析 MuZeroのサンプル効率を改善するために、MuZero Reanalyzeという、わずかに異なるアルゴリズムを導入した。 MuZero Reanalyzeは過去のタイムステップを再検討し、最新のモデルパラメーターを使用して探索を再実行するため、元の探索よりも方策の品質が向上する可能性がある。この新しい方策は、MuZero訓練中の更新の80％の方策目標として使用される。さらに、最近のパラメータに基づくターゲットネットワークを使用して、価値関数のよる新鮮で安定したnステップブートストラップターゲットを提供する。さらに、他のいくつかのハイパーパラメータが調整された。主にサンプルの再利用を増やし、価値関数の過剰適合を回避するためである。具体的には、状態ごとに0.1ではなく2.0サンプルが取り出された。価値目標は、方策および報酬目標の1.0の重みと比

ブックマークしたユーザー

zu22019/12/27

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx