強化学習 - Tic-Tac-Toe 三目並べ、マルバツゲーム、Tic-Tac-Toeというそうです。強化学習(Q-Learning)のまとめとしてチャレンジしてみました。Googleで「Tic-Tac-Toe」と検索すると三目並べで遊べます。 先に結果 ランダムな相手(後手)には80%近い確率で勝てるようになりました。でも実際に対戦してみると「ちょっとかしこいかな?」くらいの印象です。今日の勢いで作ったのでプログラムの細かいところに不備があるかも?しれません。。あまり参考にならないかも。 設定など アルゴリズム Q-Learning 報酬 勝ち:1 負け:-1 引き分け:0 引き分けも多いので、報酬としてプラスマイナスがあるのも良いのかも。 状態 3**9 = 19683とおり 行動 9マスあるので9とおり キーボード入力時は0〜8 既に入力済みの場所を選択した場合は、ランダムで配置する