[B! Python][AI][deferred] agwのブックマーク

agw id:agw

PythonとAIとdeferredに関するagwのブックマーク (1)

三目並べを強化学習する - Qiita
参加させて頂いている勉強会にて三目並べを強化学習する話が出ていたのでコード書いてみました。参考文献強くなるロボティック・ゲームプレイヤーの作り方　～実践で学ぶ強化学習～強化学習モンテカルロ法による強化学習超概要今回使用したのがモンテカルロ法（方策オン型）なので、モンテカルロ法周辺だけ書きます。（勉強会で話を聞いたのと、ちょろっと本読んだだけなので内容には自信がありませんが。。）モンテカルロ法について一言で書くと、サンプルエピソード形式の経験から価値観数と最適方策を学習する方法で、政策反復を行いながら、政策評価と政策改善を行っていく手法（らしい）です。 (コードも大まかに政策反復、政策評価、政策改善のブロックに分ける事が出来ます) 以下、利点と欠点を記載します。モンテカルロ法の利点環境のダイナミクスの事前知識（モデル）を必要としないそれでいながら最適な挙動を達成できる動
agw 2016/08/04
deferred

AI

PRML

Python

Programming
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx