AlphaGo と AlphaGo Zero の自己対戦による学習部分の違い - うどん記

テクノロジーカテゴリーの変更を依頼記事元:

ir5.hatenablog.com

16 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

AlphaGo と AlphaGo Zero の自己対戦による学習部分の違い - うどん記

流し読みだとちゃんと分からなかったのでメモ。準備(Alpha Go) policy network : 盤面とその特徴量を入... 流し読みだとちゃんと分からなかったのでメモ。準備(Alpha Go) policy network : 盤面とその特徴量を入力として受け取り、各マスに打つ確率を返すニューラルネット。 value network: 盤面とその特徴量を入力として受け取り、その盤面での勝率を返すニューラルネット。 Alpha Go ではまず policy network をプロの棋譜データから教師あり学習で事前学習させ、その後自己対戦による強化学習によってさらに改善させていく。 Alpha Go の強化学習パート教師あり学習後の policy network のパラメータ $\rho_0$ から学習をスタートする。自己対戦の結果から policy network のパラメータは随時更新されていく。それらを $\rho_1, \rho_2, \cdots$ とする。$t$ 回目の自己対戦では、現在のパラメータ $\

ブックマークしたユーザー

katakamo2017/11/05
isgk2017/10/30
ccxlv22017/10/30
lyiase2017/10/30
n_knuu2017/10/30
agw2017/10/30
placeinsuns2017/10/29
sucrose2017/10/29
yowa2017/10/29
yag_ays2017/10/29

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx