[B! go][paper] manabouのブックマーク

manabou id:manabou

goとpaperに関するmanabouのブックマーク (1)

AlphaGo Zeroの論文を読むその4(自己対局) - TadaoYamaokaの開発日記
その3の続き自己対局パイプライン自己対局パイプラインは、3つの主要な部分から構成される。最適化評価自己対局これらは並行で実行される。最適化ミニバッチサイズ：2,048 (32バッチずつ別々のGPUで実行) ミニバッチデータは直近50万の自己対局のすべての局面からランダムでサンプリングモーメントありのSGDで最適化(モメンタムパラメータ=0.9) 学習率は以下の通り徐々に下げる 1000ステップ学習率 0-400 400-600 >600 損失関数には、policyの交差エントロピーとvalueの平均二乗誤差の和を使用 policyの交差エントロピーとvalueの平均二乗誤差は等しく重み付けする L2正則化を行う(c=) 損失関数を式にすると以下の通り zは勝敗(-1,1)、vはvalue、はモンテカルロ木探索で求めた局面の遷移確率、はpolicyの遷移確率、はネットワー
manabou 2017/10/25
alphago

paper

go

game
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx