yoshiwebのブックマーク - はてなブックマーク

AlphaGo Zeroの論文を読む - TadaoYamaokaの開発日記
今日のAlpha Go Zeroのニュースは衝撃でした。将棋 AIで方策勾配で強化学習を行ったときは、発散してうまくいかなかったので教師データで最初に訓練が必要と思っていました。それが、自己対局のみで強くできるとは驚きです。論文が公開されたので、使われたテクニックを調べていきたいと思います。 Mastering the game of Go without human knowledge | Nature まだ全部読んでいませんが、ざっくり初めの方を読んで以下の特徴があるようです。 PolicyとValueを1つのネットワークで出力する Batch Normalisationと非線形の活性化関数を使用したResidual Network(ResNet) モンテカルロ木探索による自己対局で生成した各局面の打ち手と、勝敗結果を訓練データに使用するモンテカルロ木探索はノードを1回訪問したら
yoshiweb 2017/10/22
AlphaGo
リンク
コンピュータ将棋におけるディープラーニングの考察 - TadaoYamaokaの開発日記
先日の日記で、コンピュータ将棋とAlpha Goについて言及したが、次のPonanzaがディープラーニングに成功したということで、どのように適用しているのかが気になっている。そこで適当に考察してみる。電王戦のインタビューでもプロの棋譜との一致率について言及していたことから、学習しているのは評価関数ではなく方策(policy)であると思われる。入力に盤面の情報を与えて、出力に指し手の確率を出力する関数である。入力ポイントとなるのが、入力の盤面の情報の与え方であると思う。 Alpha Goでは19×19の各座標の白石、黒石、空きで3チャンネル(2値)の情報と、アタリやシチョウなどの若干の囲碁の知識を特徴量として各チャンネルに割り当て、合計で48チャンネルのデータを入力としていた。将棋では、駒の種類が多いため、成りを含めた14種類のコマ数分のチャンネルが必要になる。また、持ち駒もあるた
yoshiweb 2017/10/22
deep learning

強化学習
リンク
1

はてなブックマーク

タグ

ブックマーク / tadaoyamaoka.hatenablog.com (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / tadaoyamaoka.hatenablog.com (2)

AlphaGo Zeroの論文を読む - TadaoYamaokaの開発日記

コンピュータ将棋におけるディープラーニングの考察 - TadaoYamaokaの開発日記

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス