[B! tictactoe] tsu-neraのブックマーク

「これからの強化学習」1章の内容で三目並べ - Gunosyデータ分析ブログ

こんちくわ。データ分析部兼サウンドエンジニアの大曽根です。最近は吾妻光良&The Swingin Buppersのライブに行きました。今回は4/12に開催した「これからの強化学習」の輪読会の1.3節で紹介した価値反復法のアルゴリズムを、教科書とは異なる例で実装してみました。開催報告については下記のブログをご覧ください。 data.gunosy.io メジャーなゲームである三目並べを、1.3節にて紹介されているSarsaを用いて学習しました。教科書とは別の例で実装することで少しでも理解が深まればと思います。価値反復に基づくアルゴリズムマルコフ決定過程において価値関数を特定の更新式に従って更新する手法です。(今回はSarsaで試しました。) 発表の際には、tの状態の更新式に次の状態 t+1が含まれているところなどがわかりづらいとの質問を受けました。価値反復に基づくアルゴリズムでは過

tsu-nera 2017/06/14

リンク

ChainerでDQN。強化学習を三目並べでいろいろ試してみた。（Deep Q Network、Q-Learning、モンテカルロ） - Qiita

ChainerでDQN。強化学習を三目並べでいろいろ試してみた。（Deep Q Network、Q-Learning、モンテカルロ）Python MachineLearningChainerReinforcementLearning 初めてのQiita投稿です。Ridge-iという会社で機械学習を中心としたコンサル～開発をしてます。強化学習について教える機会が出てきたので、三目並べをベースにモンテカルロ Q-Learning Deep Q Network (いわゆるDQN) についてJupyter（ipython) で実装して教材を作りました。ちなみに強いプレーヤー同士ならば、ドローだけが繰り返されるはずです。（WarGameの有名なやつですね。）結論としてはモンテカルロ　実装簡単。100回試行位でほぼ負けなし（50回くらいだと時々負ける） Q-Learning 　更新式の設計に気

tsu-nera 2017/06/14

リンク

三目並べを強化学習する - Qiita

参加させて頂いている勉強会にて三目並べを強化学習する話が出ていたのでコード書いてみました。参考文献強くなるロボティック・ゲームプレイヤーの作り方　～実践で学ぶ強化学習～強化学習モンテカルロ法による強化学習超概要今回使用したのがモンテカルロ法（方策オン型）なので、モンテカルロ法周辺だけ書きます。（勉強会で話を聞いたのと、ちょろっと本読んだだけなので内容には自信がありませんが。。）モンテカルロ法について一言で書くと、サンプルエピソード形式の経験から価値観数と最適方策を学習する方法で、政策反復を行いながら、政策評価と政策改善を行っていく手法（らしい）です。 (コードも大まかに政策反復、政策評価、政策改善のブロックに分ける事が出来ます) 以下、利点と欠点を記載します。モンテカルロ法の利点環境のダイナミクスの事前知識（モデル）を必要としないそれでいながら最適な挙動を達成できる動

tsu-nera 2017/06/11

強化学習

リンク

TensorFlowでTicTacToeに挑戦 - Qiita

概要 TnsorFlowでTicTacToeをやるために、OpenAiGymのTicTacToe環境作って見た。手で確認用のサンプルコード、載せる。誰かが、TensorFlowで負かせてくれる事を望む。写真環境 windows 7 sp1 64bit anaconda3 tensorflow 1.0 OpenAi Gym 0.5 TicTacToe環境の概要 observe: 3*3の盤面を0から9までの配列にして返す 0 1 2 3 4 5 6 7 8 0 なし 1　白 -1　黒 reward: 勝ったら1 何も0 負けたら-1 gameOver: 盤が埋まったか、3つ並んだか。 action: 0から8で指定。 -1なら相手。確認用のサンプルコード from __future__ import print_function import math import sys imp