エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
強化学習について学んでみた。(その16) - いものやま。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
強化学習について学んでみた。(その16) - いものやま。
昨日はモンテカルロ-ES法を使ってブラックジャックのAIをプログラミングした。 今日は、開始点探査の仮... 昨日はモンテカルロ-ES法を使ってブラックジャックのAIをプログラミングした。 今日は、開始点探査の仮定を外す方法について考えていく。 方策オン型手法と方策オフ型手法 まず、開始点探査の仮定を外す方法として、大きく分けて2通りの方法が考えられる。 一つは、方策を決定論的なもの(=各状態で選ばれる行動は常に同じ)からソフトなもの(=各状態で選ばれる行動は確率に従う)へ変更して、任意の状態行動対についてであることを保証する方法。 こうすることで、開始点探査の仮定を入れなくても、任意の状態行動対が観測されるようになる。 もう一つは、評価、改善しようとしている方策とは別の方策を使って状態行動対の列を観測し、その観測結果を使って方策の評価/改善をする方法。 そのようなことが可能であれば、たとえ方策が決定論的なものであったとしても、状態行動対の列を生む方策としてソフトなものを使うことで、開始点探査の仮