[B! 強化学習] tsu-neraのブックマーク

tsu-nera id:tsu-nera

強化学習に関するtsu-neraのブックマーク (70)

深層強化学習の動向 / survey of deep reinforcement learning
全脳アーキテクチャ若手の会第28回勉強会 Keywords: DQN, 強化学習, Episodic Control, Curiosity-driven Exploration
tsu-nera 2017/07/20
強化学習
リンク
深層強化学習を使用し、人間の3D二足歩行をリアルにシミュレートする論文が登場。サッカードリブルや動的障害物を通り抜ける能力も再現
深層強化学習を使用し、人間の3D二足歩行をリアルにシミュレートする論文が登場。サッカードリブルや動的障害物を通り抜ける能力も再現 2017-05-06 階層的な深層強化学習（Hierarchical Deep Reinforcement Learning）という人工知能の学習技法を使用して、人間の3D二足歩行を再現、動的な移動スキルを実証した論文が公開されました（PDF）。学習後、低レベルのコントローラでは、歩く、走る、坂を登る、坂を降る、回転、など物理学を基礎としたリアルな運動能力がシミュレートされ、高レベルのコントローラでは、サッカーボールを目標位置にドリブルしたり、静的または動的な障害物を通り抜け地形ナビゲートする能力などがシミュレートされます。本論文は、ブリティッシュコロンビア大学、シンガポール国立大学に属するXue Bin Peng氏、Glen Berseth氏、KangKa
tsu-nera 2017/07/13
強化学習
リンク
Deep Q-LearningでFXしてみた
立教大学で話したセミナーの内容です。Deep Q-Learningについての説明と、それを応用して「FXで勝つ」Agentの構築について話しました。簡単な結果も出たので、それについの簡単な考察もしています。
tsu-nera 2017/07/11
強化学習

DQN

FX
リンク
深層強化学習でシステムトレードをやる時に役に立ちそうな資料まとめ - ニートの言葉
Photo via Visual Hunt 少し前のことですが、Alpha Goという囲碁の人工知能プログラムがイ・セドル九段に勝利したことで話題になりました。*1 また、一部のゲームにおいて「DQN（Deep Q-network）」が人間よりも上手くプレイするようになったというニュースも話題になっていましたね。*2 今回はこれらの事例で使われている「深層強化学習」という仕組みを使って、FXのシステムトレードができないかと思い、調べてみました。注意：強化学習もFXも勉強し始めたばかりなので、色々間違っている箇所があるかもしれません。ご指摘いただけると幸いです。今回の内容 1.強化学習について 1-1.強化学習 1-2.Reinforcement Learning: An Introduction (2nd Edition) 1-3.UCL Course on RL 1-4.強化学習につい
tsu-nera 2017/07/11
DQN

FX

強化学習
リンク
JSME-JT
日本機械学会論文集（C 編）原著論文 No.2011-JCR-0275 ©2012 The Japan Society of Mechanical Engineers ∗1 Department of Mechanical Engineering, Undergraduate School of Science and Techonology, Toyo University 2100, Kujirai, Kawagoe-shi, Saitama, 350-8585 Japan Reinforcement learning approaches attract attention as the technique to construct the mapping function between sensors-motors of an autonomous robot through
tsu-nera 2017/07/06
強化学習

ニューラルネット
リンク
Let’s make a DQN: Theory
tsu-nera 2017/07/06
DQN

強化学習

cartpole
リンク
Let’s make a DQN: Implementation
tsu-nera 2017/07/06
DQN

強化学習

cartpole
リンク
48-01-17.dvi
tsu-nera 2017/07/06
[

強化学習
リンク
http://medfreak.info/?p=3293
tsu-nera 2017/07/06
強化学習
リンク
Deep Reinforcement Learning
tsu-nera 2017/07/06
強化学習

DQN
リンク
Deep Q-Network　論文輪読会
Deep-Q Networkに関するNatureの論文"Human-level control through deep reinforcement learning"を社内論文輪読会で読みました
tsu-nera 2017/07/06
DQN

強化学習
リンク
DQNをKerasとTensorFlowとOpenAI Gymで実装する
はじめに少し時代遅れかもしれませんが、強化学習の手法のひとつであるDQNをDeepMindの論文Mnih et al., 2015, Human-level control through deep reinforcement learningを参考にしながら、KerasとTensorFlowとOpenAI Gymを使って実装します。前半では軽くDQNのおさらいをしますが、少しの強化学習の知識を持っていることを前提にしています。すでにいくつか良記事が出ているので紹介したいと思います。合わせて読むと理解の助けになると思うので、是非参考にしてみてください。 DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた DQNが生まれた背景について説明してくれています。Chainerでの実装もあるそうです。ゼロからDeepまで学ぶ強化学習タイトルの通り、ゼロからDeepま
tsu-nera 2017/07/06
DQN

強化学習
リンク
GitHub - ugo-nama-kun/RL_nyu-mon
tsu-nera 2017/07/06
強化学習
リンク
DQNで自作迷路を解く - Qiita
Deep Q Network（いわゆるDQN）で自作の迷路を解いてみました。プログラムはこちらにあります。 https://github.com/shibuiwilliam/maze_solver 概要 DQNは強化学習の一種で、最適な戦略選択にニューラルネットワークを使っているものになります。強化学習やニューラルネットワークの説明は以下が参考になります。強化学習ゼロからDeepまで学ぶ強化学習 - Qiita ニューラルネットワーク TensorFlowのチュートリアルを通して、人工知能の原理について学習する - Qiita 強化学習はゲームやロボット制御で使われている技術なのですが、状況（State）に対してプレイヤー（エージェントとも）が行動（Action）を起こすことで、状況の変化とその行動への報酬（reward）を得るモデルです。状況に対する行動を繰り返すことプレイヤー
tsu-nera 2017/07/06
強化学習

dqn
リンク
AI Frameworks
Get performance gains ranging up to 10x to 100x for popular deep learning and machine learning frameworks through drop-in Intel® optimizations. AI frameworks provide data scientists, AI developers, and researchers the building blocks to architect, train, validate, and deploy models through a high-level programming interface. All major frameworks for deep learning and classical machine learning hav
tsu-nera 2017/07/05
DQN

強化学習
リンク
Deep Q Network (DQN) - DeepLearningを勉強する人
http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html [1312.5602] Playing Atari with Deep Reinforcement Learning Q-Learningにおいて、action-value functionをDNNで関数近似したもので、Deep RLの皮切りとなった. Q-Learningとはなんだったか？自分用の強化学習メモからの復習的ななにか. Model-free、Off-Policy、Value-basedなControl target policy : greedy behavior policy : -greedy (TD-TargetにはサンプリングしたBellman Optimality Equation) パラメータで関数近似した場合、論文まとめ
tsu-nera 2017/07/05
DQN

強化学習
リンク
ゆるふわ強化学習2 - Qiita
推敲してたら長くなりそうなので、一旦投稿しておきます。内容今回は、価値関数を用いた最適行動学習としてQ学習、SARSA、Expected SARSAを説明します。それらの導入として、非同期式価値反復・方策反復を紹介します。上記のアルゴリズム達は、非同期式価値反復・方策反復の確率近似版として理解されます。その後、適格度トレースについて説明します。適格度トレースは、方策反復と価値反復を繋ぐようなダイナミックプログラミングの手法として紹介します。（長くなるので次回にします。）これは、Sutton等の本ではなく、Bertsekas等の本（Neuro-Dynamic Programming）に紹介されています。というより、前回の記事も後者の本を参考にしています。Bertsekas等の新しい本も欲しいのでボスに最近おねだりしました。その本が来たら、記事たちもアップデートするかもしれません。あと、間
tsu-nera 2017/07/05
強化学習
リンク
ゆるふわ強化学習1 - Qiita
はじめに強化学習について日本語で説明したゆるふわ入門があればいいなと思ったので書きます。ちょっと冗長だったので、簡潔にしました。重要な注意点として、今回の記事では、環境のモデル（MDPの全ての要素）が分かっている場合を扱います。後に環境のモデルが不明な場合を扱いますが、そのための数学的なバックグラウンドとなるものが今回の記事で扱われます。強化学習とは強化学習が何かについては、たくさんの人がゆるふわな紹介を行っているので、飛ばします。代わりに、数学的な定義を説明します。マルコフ決定過程（MDP）強化学習において、環境の定義が必要となる。この環境の定義には、通常、マルコフ決定過程またはMarkov(ian?) Decision Process（MDP）を用いる。 MDPは5-tuple $(\mathcal{S}, \mathcal{A}, p, r, \gamma)$によって定ま
tsu-nera 2017/07/05
強化学習
リンク
最近のDQN
論文紹介：Dueling network architectures for deep reinforcement learningKazuki Adachi
tsu-nera 2017/07/05
DQN

強化学習
リンク
https://github.com/krocki/gym-cartpole/blob/0788239f2c1be0b694a1b90a376780e1a8603bab/cartpole.py
tsu-nera 2017/07/05
cartpole

OpenAI

強化学習

numpy
リンク
1 2 3 4 次のページ