エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
AlphaGo と AlphaGo Zero の自己対戦による学習部分の違い - うどん記
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
AlphaGo と AlphaGo Zero の自己対戦による学習部分の違い - うどん記
流し読みだとちゃんと分からなかったのでメモ。 準備(AlphaGo) policy network : 盤面とその特徴量を入... 流し読みだとちゃんと分からなかったのでメモ。 準備(AlphaGo) policy network : 盤面とその特徴量を入力として受け取り、各マスに打つ確率を返すニューラルネット。 value network: 盤面とその特徴量を入力として受け取り、その盤面での勝率を返すニューラルネット。 AlphaGo ではまず policy network をプロの棋譜データから教師あり学習で事前学習させ、その後自己対戦による強化学習によってさらに改善させていく。 AlphaGo の強化学習パート 教師あり学習後の policy network のパラメータ $\rho_0$ から学習をスタートする。自己対戦の結果から policy network のパラメータは随時更新されていく。それらを $\rho_1, \rho_2, \cdots$ とする。$t$ 回目の自己対戦では、現在のパラメータ $\