タグ

2020年2月24日のブックマーク (1件)

  • MuZeroの論文を読む(概要、導入、先行研究) - TadaoYamaokaの開発日記

    MuZeroの論文を読んでいきます。 基的にだらだら訳していくだけです。 途中で感想を書いていきます。 概要 プランニング能力を備えたエージェントを構築することは、人工知能の追求における主な課題の1つである。 ツリーベースのプランニング方法は、完全なシミュレーターが利用できるチェスや囲碁などの挑戦的なドメインで大成功を収めている。 ただし、実際の問題では、環境を支配するダイナミクスはしばしば複雑で未知である。 この研究では、ツリーベースの探索と学習モデルを組み合わせることにより、基礎となるダイナミクスの知識がなくても、挑戦的で視覚的に複雑な領域で超人的なパフォーマンスを実現するMuZeroアルゴリズムを紹介する。 MuZeroは、反復的に適用されたときに、プランニングに最も直接関係する量(報酬、行動選択方策、および価値関数)を予測するモデルを学習する。 モデルベースのプランニングアプロー

    MuZeroの論文を読む(概要、導入、先行研究) - TadaoYamaokaの開発日記