velvet__1113のブックマーク / 2013年11月26日

velvet__1113 id:velvet__1113

2013年11月26日のブックマーク (2件)

バンディットアルゴリズム入門と実践
東京大学松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です．強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています．巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました．主に以下のような強化学習の概念やアルゴリズムの紹介をしています．・マルコフ決定過程・ベルマン方程式・モデルフリー強化学習・モデルベース強化学習・TD学習・Q学習・SARSA ・適格度トレース・関数近似・方策勾配法・方策勾配定理・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN（Deep Q-Network）・経験再生・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois
velvet__1113 2013/11/26
アルゴリズム
リンク
Making of World Wide Maze Moving Model
設営がいそがしかったのかまともな写真がほぼ無いｗ大阪チームが助けてくれたおかげで展示としての完成度もすごくあがったし、お客さんもみんな楽しんでくれてたので、大成功！といーたいところだけど、キャリブレーションの問題なのかソフトウェアのバグなのか、制作時よりもプロジェクションのズレが大きくって、それだけが心残りだわー。映像チームがまとめ映像をつくってくれるのでお楽しみにー。
velvet__1113 2013/11/26
hardware
リンク
- 2013年11月28日
- 2013年11月26日
- 2013年11月22日