[B! deep learning][DQN] tsu-neraのブックマーク

Deep Reinforcement Learning

In this tutorial I will discuss how reinforcement learning (RL) can be combined with deep learning (DL). There are several ways to combine DL and RL together, including value-based, policy-based, and Read more

tsu-nera 2017/06/16

リンク

倒立振子でDQNにおけるモデルの複雑さと学習内容の関係をちらっと確かめてみた系の話 - めもめも

何の話かというと qiita.com 上記の記事では、「倒立振子」を題材にした、DQN（Deep Q Network）による強化学習の解説があり、非常によくまとまっています。一方、この記事の中では、全結合層を4層に重ねたネットワークを利用しているのですが、倒立振子の問題に限定すれば、もっとシンプルなネットワークでも対応できる気がしなくもありません。というわけで、「0層（パーセプトロン）」「1層」「2層」のネットワークでどこまで学習できるのか、モデルの複雑さと学習内容の関係を確認してみたよー、というのがこのブログのネタになります。 DQNとは？まずは簡単にDQNを解説しておきます。ビデオゲームの自動プレイで有名になりましたが、「与えられた環境において、最善の行動を選択する」という処理を実現することが目標です。ここで言う「行動」は、ビデオゲームの操作のように、「どのボタンを押すのか」と

tsu-nera 2017/06/09

リンク

Deep Q-LearningでFXしてみた - GMOインターネットグループグループ研究開発本部

次世代システム研究室のJK（男）です。よろしくお願いします。今回はDeep Q-Learningという手法でFXをやってみたので紹介します。前回のブログでは、LSTMというディープラーニング(Deep Learning; 深層学習とも)の一種を使って、株価変動の予想をしました。これは「教師あり学習」という手法で、コンピュータに常に「正解」を教えて学習させます。でも、よくよく考えると金融商品って時間変動の予想が最終目標じゃないですよね。最終目標は（基本的に）金融商品の売買で儲けること。つまり予想を元に、いま売るのか、買うのか、何もしないのか、という「行動」を決めることです。完全に未来がわかるのでもない限り、この行動に「正解」が無いことがわかります。完全に予想するのは無理（短期的には買ったり負けたり）かもしれませんが、長期的には儲けるような「方針」は立てられるかもしれない。このように「方針

tsu-nera 2017/05/09

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

deep learningとDQNに関するtsu-neraのブックマーク (3)

お知らせ

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

今週のはてなブックマーク数ランキング（2024年10月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (4)

deep learningとDQNに関するtsu-neraのブックマーク (3)

Deep Reinforcement Learning

倒立振子でDQNにおけるモデルの複雑さと学習内容の関係をちらっと確かめてみた系の話 - めもめも

Deep Q-LearningでFXしてみた - GMOインターネットグループ グループ研究開発本部

お知らせ

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

今週のはてなブックマーク数ランキング（2024年10月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Deep Q-LearningでFXしてみた - GMOインターネットグループグループ研究開発本部