全脳アーキテクチャ若手の会第28回勉強会 Keywords: DQN, 強化学習, Episodic Control, Curiosity-driven Exploration
![深層強化学習の動向 / survey of deep reinforcement learning](https://cdn-ak-scissors.b.st-hatena.com/image/square/6299f40fcecd5f39a577bbc8cea9a01f4ca6a06b/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2F006b8412f5d94fecb35595742caeff7b%2Fslide_0.jpg%3F8321734)
全脳アーキテクチャ若手の会第28回勉強会 Keywords: DQN, 強化学習, Episodic Control, Curiosity-driven Exploration
深層強化学習を使用し、人間の3D二足歩行をリアルにシミュレートする論文が登場。サッカードリブルや動的障害物を通り抜ける能力も再現 2017-05-06 階層的な深層強化学習(Hierarchical Deep Reinforcement Learning)という人工知能の学習技法を使用して、人間の3D二足歩行を再現、動的な移動スキルを実証した論文が公開されました(PDF)。 学習後、低レベルのコントローラでは、歩く、走る、坂を登る、坂を降る、回転、など物理学を基礎としたリアルな運動能力がシミュレートされ、高レベルのコントローラでは、サッカーボールを目標位置にドリブルしたり、静的または動的な障害物を通り抜け地形ナビゲートする能力などがシミュレートされます。 本論文は、ブリティッシュコロンビア大学、シンガポール国立大学に属するXue Bin Peng氏、Glen Berseth氏、KangKa
立教大学で話したセミナーの内容です。Deep Q-Learningについての説明と、それを応用して「FXで勝つ」Agentの構築について話しました。簡単な結果も出たので、それについの簡単な考察もしています。
Photo via Visual Hunt 少し前のことですが、AlphaGoという囲碁の人工知能プログラムがイ・セドル九段に勝利したことで話題になりました。*1 また、一部のゲームにおいて「DQN(Deep Q-network)」が人間よりも上手くプレイするようになったというニュースも話題になっていましたね。*2 今回はこれらの事例で使われている「深層強化学習」という仕組みを使って、FXのシステムトレードができないかと思い、調べてみました。 注意:強化学習もFXも勉強し始めたばかりなので、色々間違っている箇所があるかもしれません。ご指摘いただけると幸いです。 今回の内容 1.強化学習について 1-1.強化学習 1-2.Reinforcement Learning: An Introduction (2nd Edition) 1-3.UCL Course on RL 1-4.強化学習につい
日本機械学会論文集(C 編) 原著論文 No.2011-JCR-0275 ©2012 The Japan Society of Mechanical Engineers ∗1 Department of Mechanical Engineering, Undergraduate School of Science and Techonology, Toyo University 2100, Kujirai, Kawagoe-shi, Saitama, 350-8585 Japan Reinforcement learning approaches attract attention as the technique to construct the mapping function between sensors-motors of an autonomous robot through
はじめに 少し時代遅れかもしれませんが、強化学習の手法のひとつであるDQNをDeepMindの論文Mnih et al., 2015, Human-level control through deep reinforcement learningを参考にしながら、KerasとTensorFlowとOpenAI Gymを使って実装します。 前半では軽くDQNのおさらいをしますが、少しの強化学習の知識を持っていることを前提にしています。 すでにいくつか良記事が出ているので紹介したいと思います。合わせて読むと理解の助けになると思うので、是非参考にしてみてください。 DQNの生い立ち + Deep Q-NetworkをChainerで書いた DQNが生まれた背景について説明してくれています。Chainerでの実装もあるそうです。 ゼロからDeepまで学ぶ強化学習 タイトルの通り、ゼロからDeepま
Deep Q Network(いわゆるDQN)で自作の迷路を解いてみました。 プログラムはこちらにあります。 https://github.com/shibuiwilliam/maze_solver 概要 DQNは強化学習の一種で、最適な戦略選択にニューラルネットワークを使っているものになります。 強化学習やニューラルネットワークの説明は以下が参考になります。 強化学習 ゼロからDeepまで学ぶ強化学習 - Qiita ニューラルネットワーク TensorFlowのチュートリアルを通して、人工知能の原理について学習する - Qiita 強化学習はゲームやロボット制御で使われている技術なのですが、状況(State)に対してプレイヤー(エージェントとも)が行動(Action)を起こすことで、状況の変化とその行動への報酬(reward)を得るモデルです。 状況に対する行動を繰り返すことプレイヤー
Get performance gains ranging up to 10x to 100x for popular deep learning and machine learning frameworks through drop-in Intel® optimizations. AI frameworks provide data scientists, AI developers, and researchers the building blocks to architect, train, validate, and deploy models through a high-level programming interface. All major frameworks for deep learning and classical machine learning hav
http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html [1312.5602] Playing Atari with Deep Reinforcement Learning Q-Learningにおいて、action-value functionをDNNで関数近似したもので、Deep RLの皮切りとなった. Q-Learningとはなんだったか? 自分用の強化学習メモからの復習的ななにか. Model-free、Off-Policy、Value-basedなControl target policy : greedy behavior policy : -greedy (TD-TargetにはサンプリングしたBellman Optimality Equation) パラメータで関数近似した場合、 論文まとめ
推敲してたら長くなりそうなので、一旦投稿しておきます。 内容 今回は、価値関数を用いた最適行動学習としてQ学習、SARSA、Expected SARSAを説明します。それらの導入として、非同期式価値反復・方策反復を紹介します。上記のアルゴリズム達は、非同期式価値反復・方策反復の確率近似版として理解されます。その後、適格度トレースについて説明します。適格度トレースは、方策反復と価値反復を繋ぐようなダイナミックプログラミングの手法として紹介します。(長くなるので次回にします。)これは、Sutton等の本ではなく、Bertsekas等の本(Neuro-Dynamic Programming)に紹介されています。というより、前回の記事も後者の本を参考にしています。Bertsekas等の新しい本も欲しいのでボスに最近おねだりしました。その本が来たら、記事たちもアップデートするかもしれません。あと、間
はじめに 強化学習について日本語で説明したゆるふわ入門があればいいなと思ったので書きます。ちょっと冗長だったので、簡潔にしました。 重要な注意点として、今回の記事では、環境のモデル(MDPの全ての要素)が分かっている場合を扱います。後に環境のモデルが不明な場合を扱いますが、そのための数学的なバックグラウンドとなるものが今回の記事で扱われます。 強化学習とは 強化学習が何かについては、たくさんの人がゆるふわな紹介を行っているので、飛ばします。代わりに、数学的な定義を説明します。 マルコフ決定過程(MDP) 強化学習において、環境の定義が必要となる。この環境の定義には、通常、マルコフ決定過程またはMarkov(ian?) Decision Process(MDP)を用いる。 MDPは5-tuple $(\mathcal{S}, \mathcal{A}, p, r, \gamma)$によって定ま
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く