zyxwvのブックマーク / 2016年6月14日

zyxwv id:zyxwv

2016年6月14日のブックマーク (3件)

DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた - Qiita
はじめにそもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました公開しました。またどうせ公開するなら、この機会にこれ（Q学習+関数近似）関連で持っている知識をついでに整理しようと思ってまとめました。ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー！！！って感覚になりそうですが、強化学習的な歴史的経緯を考えると強化学習+深層学習になった、むしろかなり当然の成り行きで生まれた技術であることがわかります。（ATARIのゲームを人間以上のパフォーマンスでプレイするというのがビジュアル的にわかりやすかった$\leftrightarrow$問題設定が良かったというのもあります。）この記事ではNIPSとNatureの以下の２本の論文・ V
zyxwv 2016/06/14
Q 学習→Q network→DQN の順。Q network は関数 Q(s,a) を(複数の)パラメタ θ からなるものとして、θ を学習する。学習にはニューラルネットを使う。

chainer

reinforcement learning

dqn
リンク
Pythonで Q学習を実装する
Deep Q-Networkについて調べてみたら面白い記事を見つけました。 DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた http://qiita.com/Ugo-Nama/it ems/08c6a5f6a571335972d5 この記事を読んで、Deep Q-Networkが Q学習 -> Q-Network -> Deep Q-Network という流れ生まれたものだということがわかりました。この流れをPythonで実装しながら辿ってみようと思います。今回はQ学習を実装します。 Q学習について下記のページに詳しく載っているので割愛します。強化学習 http://www.sist.ac.jp/~kanakubo/research/reinforcement_learning.html 強化学習とは？ http://sysplan.nams.kyushu-
zyxwv 2016/06/14
Q 学習(Python)

reinforcement learning
リンク
はてなブログ | 無料ブログを作成しよう
オーベルジーヌ実食レポ食べ物の鼻塩塩(未だに通じるのかな) オーベルジーヌというカレーをご存知だろうか都内にあるデリバリー専門のカレー屋で、ロケ弁などで大人気の本格欧風カレーが楽しめるらしいいいな〜いいな〜オブザイヤー都内の奴らはこんな良いモン食ってんのか許せねえよ………
zyxwv 2016/06/14
Q 学習のサンプルコード(Java)

machine learning

reinforcement learning
リンク
- 2016年6月28日
- 2016年6月14日
- 2016年6月9日