gunosy-dm.connpass.com こんにちは。グノシー開発部のアルシャマンです。最近は、KID FRESINOのSalve feat. JJJをよく聴いています。 今日は4/12(水)に開催したGunosy DM #118について紹介します。前回に引き続きこれからの強化学習の1.3~1.5節の輪読と、論文紹介を行いました。 Gunosy DMとこれからの強化学習については、以下のブログ記事で紹介しています。 data.gunosy.io 書籍輪読(これからの強化学習) データ分析部の大曽根と吉田からそれぞれ1.3~1.4節と1.5節についての発表がありました。 1.3節では、MDP(マルコフ決定過程)における価値関数の表現と、それを推定するアルゴリズムについて学びました。具体的には、ある方策πのもとでの行動価値関数について成立する再帰式であるベルマン方程式とSarsaという学習