はじめに AlphaGo Zeroは、囲碁AIをゼロから強化学習で鍛え上げたもので、それまで最強だったAlphaGo Masterを打ち破るという偉業を成し遂げました。そしてこのZeroの手法自体は結構シンプル、かつ、強くなれるという美味しいところ取りな手法なのです。また、そのゲームの知識を知らなくても実装できます。 今回は手法の理解と検証のため、リバーシのAIを育てているので共有します。 システム概要 ソースコード: https://github.com/mokemokechicken/reversi-alpha-zero 動作環境 確認済みなのは以下の環境です。 Python 3.6.3 tensorflow-gpu: 1.3.0 tensorflow==1.3.0 でも動きますが、非常に遅いです。play_guiの時は tensorflow(cpu) でもまあ問題ない感じで動きます。