こんにちは。グノシーデータ分析部の関です。 最近はMaison book girlのkarmaをよく聞いています。 今回の投稿では4/24に開催したGunosy DM #119と5/10に開催したGunosy DM #120について紹介します。 これまで同様、これからの強化学習の輪読と論文紹介を行っております。 書籍輪読 - これからの強化学習 #119では2.1節を関が紹介し、 #120では2.2, 2.3節を関が 2.4節をatlimited様に紹介いただきました 1章では価値関数が離散的な状況を想定していましたが、 2.1節では価値関数が連続的であることを考慮し、その中で関数を近似する方法を検討しています。 通常の機械学習では、入力がi.i.dであることを仮定していますが、 強化学習では、得られるデータが方策に依存するので、マルコフ性を持ってしまうため、収束が保証されません。 そのな