[B! 囲碁] MATSUZAKIのブックマーク

Impact of Go AI on the professional Go world

MATSUZAKI 2020/08/26

囲碁

リンク

http://www.h-eba.com/heba/JITEN/jiten0-4.html

MATSUZAKI 2019/12/11

囲碁

リンク

MuZeroの論文を読むその３（結果） - TadaoYamaokaの開発日記

結果 MuZeroアルゴリズムを、挑戦的なプランニング問題のベンチマークとしての古典的なボードゲーム囲碁、チェス、将棋、および視覚的に複雑なRLドメインのベンチマークとしてAtari Learning Environmentの57のゲームすべてに適用した。測定条件それぞれのケースで、K = 5の仮想ステップでMuZeroを訓練した。ボードゲームではサイズ2048、アタリではサイズ1024の100万ミニバッチで訓練した。訓練と評価の両方で、MuZeroはボードゲームの各探索に800回のシミュレーションを使用し、Atariの各探索に50回のシミュレーションを使用した。表現関数は、AlphaZeroと同じ畳み込みおよび残差アーキテクチャを使用するが、20ではなく16の残差ブロックを使用する。ダイナミクス関数は表現関数と同じアーキテクチャを使用し、予測関数はAlphaZeroと同じアー

MATSUZAKI 2019/12/01

リンク

MuZeroの論文を読むその２（MuZeroアルゴリズム） - TadaoYamaokaの開発日記

続きです。 MuZeroアルゴリズム MuZeroアルゴリズムについて詳しく説明する。予測は、各タイムステップtで、ステップのそれぞれについて、過去の観測および将来の行動を条件とするパラメーターを使用したモデルによって行われる。モデルは、3つの将来の量を予測する：方策価値関数即時報酬ここで、は真の観測報酬、は実際の行動の選択に使用される方策、は環境の割引関数である。モデルの目的内部的には、各タイムステップtで、モデルは表現関数、ダイナミクス関数、および予測関数の組み合わせによって表される。ダイナミクス関数は、各仮想ステップkで即時報酬および内部状態を計算する再帰プロセスである。これは、特定の状態と行動に対して予想される報酬と状態遷移を計算するMDPモデルの構造を反映している*1。ただし、モデルベースRLへの従来のアプローチとは異なり、この内部状態には環境状態のセマンテ

MATSUZAKI 2019/11/25

リンク