参加させて頂いている勉強会にて三目並べを強化学習する話が出ていたのでコード書いてみました。 参考文献 強くなるロボティック・ゲームプレイヤーの作り方 ~実践で学ぶ強化学習~ 強化学習 モンテカルロ法による強化学習超概要 今回使用したのがモンテカルロ法(方策オン型)なので、モンテカルロ法周辺だけ書きます。 (勉強会で話を聞いたのと、ちょろっと本読んだだけなので内容には自信がありませんが。。) モンテカルロ法について一言で書くと、サンプルエピソード形式の経験から価値観数と最適方策を学習する方法で、政策反復を行いながら、政策評価と政策改善を行っていく手法(らしい)です。 (コードも大まかに政策反復、政策評価、政策改善のブロックに分ける事が出来ます) 以下、利点と欠点を記載します。 モンテカルロ法の利点 環境のダイナミクスの事前知識(モデル)を必要としない それでいながら最適な挙動を達成できる 動
