DeepMindからAlphaGo Zeroと同じ方法で、チェスと将棋でトップレベルを上回ったという論文が発表されました。 [1712.01815] Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm ドメイン知識を用いないスクラッチから強化学習のみで達成しています。 将棋やチェスはモンテカルロ木探索(MCTS)は向かず、Mini-Max探索の方が良いというのが常識のようになっていましたが、将棋やチェスでもディープラーニングと組み合わせることでMCTSが有効であることが示されたというのも大きな成果だと思います。 まだ全部読み切れていませんが、気になる個所から読んだ内容を書いていきます。 個人的に一番気になるのは、入力特徴と出力ラベルの表現方法です。 チェスについても書か