推敲してたら長くなりそうなので、一旦投稿しておきます。 内容 今回は、価値関数を用いた最適行動学習としてQ学習、SARSA、Expected SARSAを説明します。それらの導入として、非同期式価値反復・方策反復を紹介します。上記のアルゴリズム達は、非同期式価値反復・方策反復の確率近似版として理解されます。その後、適格度トレースについて説明します。適格度トレースは、方策反復と価値反復を繋ぐようなダイナミックプログラミングの手法として紹介します。(長くなるので次回にします。)これは、Sutton等の本ではなく、Bertsekas等の本(Neuro-Dynamic Programming)に紹介されています。というより、前回の記事も後者の本を参考にしています。Bertsekas等の新しい本も欲しいのでボスに最近おねだりしました。その本が来たら、記事たちもアップデートするかもしれません。あと、間
![ゆるふわ強化学習2 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/f926b84b781a484df759e0af010644994829838f/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-1150d8b18a7c15795b701a55ae908f94.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark%3Dhttps%253A%252F%252Fqiita-user-contents.imgix.net%252F~text%253Fixlib%253Drb-4.0.0%2526w%253D840%2526h%253D380%2526txt%253D%2525E3%252582%252586%2525E3%252582%25258B%2525E3%252581%2525B5%2525E3%252582%25258F%2525E5%2525BC%2525B7%2525E5%25258C%252596%2525E5%2525AD%2525A6%2525E7%2525BF%2525922%2526txt-color%253D%252523333%2526txt-font%253DHiragino%252520Sans%252520W6%2526txt-size%253D54%2526txt-clip%253Dellipsis%2526txt-align%253Dcenter%25252Cmiddle%2526s%253Daa73d53563a22195c063e2c0027412a3%26mark-align%3Dcenter%252Cmiddle%26blend%3Dhttps%253A%252F%252Fqiita-user-contents.imgix.net%252F~text%253Fixlib%253Drb-4.0.0%2526w%253D840%2526h%253D500%2526txt%253D%252540short-clawed_otter%2526txt-color%253D%252523333%2526txt-font%253DHiragino%252520Sans%252520W6%2526txt-size%253D45%2526txt-align%253Dright%25252Cbottom%2526s%253D1fd70b51e9913d992ff219ec0985a3ba%26blend-align%3Dcenter%252Cmiddle%26blend-mode%3Dnormal%26s%3Dee25f2059903f9d2c76d77e9a6180aae)