タグ

ブックマーク / tadaoyamaoka.hatenablog.com (2)

  • AlphaGo Zeroの論文を読む - TadaoYamaokaの開発日記

    今日のAlphaGo Zeroのニュースは衝撃でした。 将棋AIで方策勾配で強化学習を行ったときは、発散してうまくいかなかったので 教師データで最初に訓練が必要と思っていました。 それが、自己対局のみで強くできるとは驚きです。 論文が公開されたので、使われたテクニックを調べていきたいと思います。 Mastering the game of Go without human knowledge | Nature まだ全部読んでいませんが、ざっくり初めの方を読んで以下の特徴があるようです。 PolicyとValueを1つのネットワークで出力する Batch Normalisationと非線形の活性化関数を使用したResidual Network(ResNet) モンテカルロ木探索による自己対局で生成した各局面の打ち手と、勝敗結果を訓練データに使用する モンテカルロ木探索はノードを1回訪問したら

    AlphaGo Zeroの論文を読む - TadaoYamaokaの開発日記
  • コンピュータ将棋におけるディープラーニングの考察 - TadaoYamaokaの開発日記

    先日の日記で、コンピュータ将棋AlphaGoについて言及したが、次のPonanzaがディープラーニングに成功したということで、どのように適用しているのかが気になっている。 そこで適当に考察してみる。 電王戦のインタビューでもプロの棋譜との一致率について言及していたことから、学習しているのは評価関数ではなく方策(policy)であると思われる。 入力に盤面の情報を与えて、出力に指し手の確率を出力する関数である。 入力 ポイントとなるのが、入力の盤面の情報の与え方であると思う。 AlphaGoでは19×19の各座標の白石、黒石、空きで3チャンネル(2値)の情報と、アタリやシチョウなどの若干の囲碁の知識を特徴量として各チャンネルに割り当て、合計で48チャンネルのデータを入力としていた。 将棋では、駒の種類が多いため、成りを含めた14種類のコマ数分のチャンネルが必要になる。 また、持ち駒もあるた

    コンピュータ将棋におけるディープラーニングの考察 - TadaoYamaokaの開発日記
  • 1