強化学習について学んでみた。（その16） - いものやま。

世の中カテゴリーの変更を依頼記事元:

yamaimo.hatenablog.jp

2 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

強化学習について学んでみた。（その16） - いものやま。

昨日はモンテカルロ-ES法を使ってブラックジャックのAIをプログラミングした。今日は、開始点探査の仮... 昨日はモンテカルロ-ES法を使ってブラックジャックのAIをプログラミングした。今日は、開始点探査の仮定を外す方法について考えていく。方策オン型手法と方策オフ型手法まず、開始点探査の仮定を外す方法として、大きく分けて2通りの方法が考えられる。一つは、方策を決定論的なもの（＝各状態で選ばれる行動は常に同じ）からソフトなもの（＝各状態で選ばれる行動は確率に従う）へ変更して、任意の状態行動対についてであることを保証する方法。こうすることで、開始点探査の仮定を入れなくても、任意の状態行動対が観測されるようになる。もう一つは、評価、改善しようとしている方策とは別の方策を使って状態行動対の列を観測し、その観測結果を使って方策の評価/改善をする方法。そのようなことが可能であれば、たとえ方策が決定論的なものであったとしても、状態行動対の列を生む方策としてソフトなものを使うことで、開始点探査の仮

ブックマークしたユーザー

tsu-nera2017/06/16

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - 世の中

いま人気の記事 - 世の中をもっと読む

新着記事 - 世の中

新着記事 - 世の中をもっと読む

設定を変更しましたx