ChainerでやってみるActor-Critic(Deep DPG) - ドラフト編 - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/chachay

7 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

aipacommander 強化学習勉強中

2017/05/16 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

ChainerでやってみるActor-Critic(Deep DPG) - ドラフト編 - Qiita

強化学習といえばDeep Q learningみたいなのりで、DQNがもてはやされていますが、Alpha Goとかロボットの... 強化学習といえばDeep Q learningみたいなのりで、DQNがもてはやされていますが、Alpha Goとかロボットの機械学習では数年前くらいからActor-Criticに移行してきているように見えます。その一方でパワーポイントに飼い慣らされた漫画お脳には論文なんて読んでも面白みがない感じの毎日なのに、一方に解説が出てくる気配が感じられません。ということで、鳩山イニシアチブが如く、恥を忍んで今の理解をざっくり紙芝居にします。復習強化学習だいたい世の強化学習ってこんな絵で始まります。これをロボット制御に使う場合は実際の出力は、動作指令値であって出力ではなく、こんな感じ。神の設計というか、リワードの設計がいろいろ面倒で、OpenAIとかdeep mindとかからの共同論文にも言及ありましたね。ここでAgentが獲得を目指すのはQ値で評価される値で長期的にみて報酬rの合計値が最

ブックマークしたユーザー

teruz0o0-ikuz0o02018/01/15
ttsurumi2017/10/19
tohu-soy2017/08/08
aipacommander2017/05/16
otomarukanta2016/12/13
p-baleine2016/10/12

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx