タグ

ブックマーク / qiita.com/short-clawed_otter (1)

  • ゆるふわ強化学習2 - Qiita

    推敲してたら長くなりそうなので、一旦投稿しておきます。 内容 今回は、価値関数を用いた最適行動学習としてQ学習、SARSA、Expected SARSAを説明します。それらの導入として、非同期式価値反復・方策反復を紹介します。上記のアルゴリズム達は、非同期式価値反復・方策反復の確率近似版として理解されます。その後、適格度トレースについて説明します。適格度トレースは、方策反復と価値反復を繋ぐようなダイナミックプログラミングの手法として紹介します。(長くなるので次回にします。)これは、Sutton等のではなく、Bertsekas等の(Neuro-Dynamic Programming)に紹介されています。というより、前回の記事も後者のを参考にしています。Bertsekas等の新しいも欲しいのでボスに最近おねだりしました。そのが来たら、記事たちもアップデートするかもしれません。あと、間

    ゆるふわ強化学習2 - Qiita
  • 1