タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

強化学習とモンテカルロに関するtsu-neraのブックマーク (5)

  • 強化学習: ノート11 - クッキーの日記

    読んでいる(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : : Amazon.co.jp 前回:ノート10 / 次回: まだ 目次:強化学習 読んだページ: 119~147ページ 以下、自分の理解。 このの2部で紹介される手法の特徴(111~113ページ、142ページ): 方策と価値関数を交互に改善していく考え方は共通だが、以下の点が異なる。 環境のダイナミクス(つまり、次のステップの状態の確率分布と報酬の期待値)が予め必要か。ブートストラップするか(つまり、ある状態の価値の推定に、他の状態の価値の推定値を用いるか)。 動的計画法必要。ブートストラップする。 モンテカルロ法不要。ブートストラップしない。 TD学習不要。ブートストラップする。 ブートストラップ=ひも。スポットレートやディスカウントファクターの

    強化学習: ノート11 - クッキーの日記
  • 強化学習について学んでみた。(その16) - いものやま。

    昨日はモンテカルロ-ES法を使ってブラックジャックのAIをプログラミングした。 今日は、開始点探査の仮定を外す方法について考えていく。 方策オン型手法と方策オフ型手法 まず、開始点探査の仮定を外す方法として、大きく分けて2通りの方法が考えられる。 一つは、方策を決定論的なもの(=各状態で選ばれる行動は常に同じ)からソフトなもの(=各状態で選ばれる行動は確率に従う)へ変更して、任意の状態行動対についてであることを保証する方法。 こうすることで、開始点探査の仮定を入れなくても、任意の状態行動対が観測されるようになる。 もう一つは、評価、改善しようとしている方策とは別の方策を使って状態行動対の列を観測し、その観測結果を使って方策の評価/改善をする方法。 そのようなことが可能であれば、たとえ方策が決定論的なものであったとしても、状態行動対の列を生む方策としてソフトなものを使うことで、開始点探査の仮

    強化学習について学んでみた。(その16) - いものやま。
  • 強化学習について学んでみた。(その14) - いものやま。

    久々に強化学習の話。 前回は、価値反復について説明し、プログラムを書いてみた。 今日からは、そもそも状態遷移のモデルが分からない場合に、どうすればいいのかを考えていく。 おさらい まず、以下の記事で状態遷移のモデルとBellman方程式について説明した。 ここでは3つの課題を挙げているけど、もしモデル(状態遷移の確率、および、報酬の期待値)が分かっているなら、方策反復や価値反復を使って方策を改善していけることが分かった。 しかし、実際にはモデルが分かるということはあまりない。 例えば、将棋である局面から次の局面にどのように遷移するかの確率が分かるかといえば、まず分からない。 なので、最後の課題、そもそも状態遷移のモデルが分からない場合にはどうすればいいのか、を考える必要がある。 基的な考え方 じゃあ、どうすればいいのかというと、基的な考え方は簡単。 実際に何度もやってみればいいじゃん、

    強化学習について学んでみた。(その14) - いものやま。
  • 強化学習その2

    東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ・マルコフ決定過程 ・ベルマン方程式 ・モデルフリー強化学習 ・モデルベース強化学習 ・TD学習 ・Q学習 ・SARSA ・適格度トレース ・関数近似 ・方策勾配法 ・方策勾配定理 ・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN(Deep Q-Network) ・経験再生 ・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois

    強化学習その2
  • 三目並べを強化学習する - Qiita

    参加させて頂いている勉強会にて三目並べを強化学習する話が出ていたのでコード書いてみました。 参考文献 強くなるロボティック・ゲームプレイヤーの作り方 ~実践で学ぶ強化学習~ 強化学習 モンテカルロ法による強化学習超概要 今回使用したのがモンテカルロ法(方策オン型)なので、モンテカルロ法周辺だけ書きます。 (勉強会で話を聞いたのと、ちょろっと読んだだけなので内容には自信がありませんが。。) モンテカルロ法について一言で書くと、サンプルエピソード形式の経験から価値観数と最適方策を学習する方法で、政策反復を行いながら、政策評価と政策改善を行っていく手法(らしい)です。 (コードも大まかに政策反復、政策評価、政策改善のブロックに分ける事が出来ます) 以下、利点と欠点を記載します。 モンテカルロ法の利点 環境のダイナミクスの事前知識(モデル)を必要としない それでいながら最適な挙動を達成できる 動

    三目並べを強化学習する - Qiita
  • 1