Marukosuのブックマーク - はてなブックマーク

Marukosu id:Marukosu

ブックマーク / qiita.com/short-clawed_otter (1)

ゆるふわ強化学習2 - Qiita
推敲してたら長くなりそうなので、一旦投稿しておきます。内容今回は、価値関数を用いた最適行動学習としてQ学習、SARSA、Expected SARSAを説明します。それらの導入として、非同期式価値反復・方策反復を紹介します。上記のアルゴリズム達は、非同期式価値反復・方策反復の確率近似版として理解されます。その後、適格度トレースについて説明します。適格度トレースは、方策反復と価値反復を繋ぐようなダイナミックプログラミングの手法として紹介します。（長くなるので次回にします。）これは、Sutton等の本ではなく、Bertsekas等の本（Neuro-Dynamic Programming）に紹介されています。というより、前回の記事も後者の本を参考にしています。Bertsekas等の新しい本も欲しいのでボスに最近おねだりしました。その本が来たら、記事たちもアップデートするかもしれません。あと、間
Marukosu 2018/06/07
学習

強化学習

DQN
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx