[B! reinforcementlearning] [2ページ] yukimori

yukimori_726 id:yukimori_726

reinforcementlearningに関するyukimori_726のブックマーク (45)

Action value Actor-Critic型Policy Gradientによる連続値動作の強化学習 - Qiita
# -*- coding: utf-8 -*- import wx import wx.lib import wx.lib.plot as plot import math import random as rnd import numpy as np import copy # import pickle # Steps looking back STATE_NUM = 2 # State STATE_NUM = 2 NUM_EYES = 9 STATE_DIM = NUM_EYES * 3 * 2 class SState(object): def __init__(self): self.seq = np.ones((STATE_NUM, NUM_EYES*3), dtype=np.float32) def push_s(self, state): self.seq[1:STATE_
yukimori_726 2016/07/06
chainer

reinforcementlearning

actor-critic
リンク
Dueling Network Architectures for Deep Reinforcement Learning [arXiv:1511.06581]
Dueling Network Architectures for Deep Reinforcement Learning [arXiv:1511.06581] 概要 Dueling Network Architectures for Deep Reinforcement Learning を読んだ Double DQNにDueling Networkを組み込んだ DQN・Double DQNと比較したはじめにこの論文は新しい強化学習のアルゴリズムを提案するのではなく、Q関数の内部構造に変更を加えたDueling Architectureを提案しています。そのためQ関数を用いた強化学習全般に適用でき、導入する際のコードの変更も少なくて済みます。 Dueling Architecture まずQ関数を以下のように分解します。 \[\begin{align} Q(s,a)=\hat{V}
yukimori_726 2016/07/04
dqn

architecture

algorithm

reinforcementlearning
リンク
TensorFlowで逆強化学習
TensorFlowで逆強化学習第4回 TensorFlow勉強会逆
yukimori_726 2016/06/30
TensorFlow

reinforcementlearning
リンク
TensorFlowで逆強化学習
TensorFlowで逆強化学習第4回 TensorFlow勉強会逆
yukimori_726 2016/06/24
TensorFlow

reinforcementlearning
リンク
github上で論文をまとめてくれているサイトまとめ（メモ） - あおのたすのブログ
(06/13 19:25 追記：バイオ系を追加しました) (06/23 : 画像系を追加しました) (09/30 : RNNのまとめを追加しました) 最近、github上でarxivの面白い論文（主にdeep learning系）をまとめている人が多いので、自分の知っている有用なリンクをまとめておきます。自然言語処理、強化学習とカテゴリごとにまとめてくれる人が居て有り難いですね。自然言語処理系 NLPの論文 github.com NLPの論文（感想も載せているので有り難い） github.com 画像系 github.com 強化学習系 GitHub - junhyukoh/deep-reinforcement-learning-papers: A list of recent papers regarding deep reinforcement learning github.c
yukimori_726 2016/06/14
paper

reinforcementlearning

nlp
リンク
GitHub - coreylynch/async-rl: Tensorflow + Keras + OpenAI Gym implementation of 1-step Q Learning from "Asynchronous Methods for Deep Reinforcement Learning"
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yukimori_726 2016/06/11
reinforcementlearning

deeplearning

dqn
リンク
Pythonではじめる強化学習 - Qiita
はじめにみなさん、強化学習してますか？強化学習はロボットや、囲碁や将棋のようなゲーム、対話システム等に応用できる楽しい技術です。強化学習とは、試行錯誤を通じて環境に適応する学習制御の枠組みです。教師あり学習では入力に対する正しい出力を与えて学習させました。強化学習では、入力に対する正しい出力を与える代わりに、一連の行動に対する良し悪しを評価する「報酬」というスカラーの評価値が与え、これを手がかりに学習を行います。以下に強化学習の枠組みを示します。エージェントは時刻 $t$ において環境の状態 $s_t$ を観測観測した状態から行動 $a_t$ を決定エージェントは行動を実行環境は新しい状態 $s_{t+1}$ に遷移遷移に応じた報酬 $r_{t+1}$ を獲得学習するステップ1から繰り返す強化学習の目的は、エージェントが取得する利得（累積報酬）を最大化するような、状態
yukimori_726 2016/06/09
reinforcementlearning

markov
リンク
ゼロからDeepまで学ぶ強化学習 - Qiita
ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ
yukimori_726 2016/06/08
dqn

reinforcementlearning
リンク
【論文シリーズ】強化学習と深層学習を組み合わせる - Qiita
原文強化学習における自己符号化器付き深層ニューラルネットワーク(Deep Auto-Encoder Neural Networks in Reinforcement Learning) Sascha Lange and Martin Riedmiller (2010) 1. 要約 (メモリ基盤の)バッチ強化学習(Reinforcement Learning; RL)アルゴリズムを考案した。これにより、自己符号化器でDNN (Deep Neural Network)を学習し、特徴空間を創出することができる。メインの機械学習アルゴリズムは、MLP(Multi Layer Perceptions) 、いわゆる多層自己符号化器を使う。 2. 背景強化学習は、次の2ステップからなる。 ①入力データから特徴を抽出する ②特徴空間から、教義(Policy)を学び、行動に落としこむこれまで、①は人
yukimori_726 2016/06/07
deeplearning

reinforcementlearning

paper
リンク
【強化学習】マルチエージェントによる追跡 - Qiita
はじめに pythonでマルチエージェント追跡問題を解いてみました．教科書として『学習とそのアルゴリズム』を使いました．本記事の構成はじめにマルチエージェント追跡ルール Q 値の更新実装コードポイント結果おわりにマルチエージェント追跡 $2$ つのエージェントで $1$ つのターゲットを捕獲するための最適な行動を学習します．エージェントがターゲットを挟み込んだ状態を，捕獲した状態と定義します．「挟み込む」とは，ターゲットの $4$ 近傍のうち $2$ 箇所にエージェントが存在する状態を指します．ルール詳細なルールを以下に示します．『学習とそのアルゴリズム』のルールを採用しています．環境として $20 \times 20$ の格子状トーラス平面を設ける． $2$ つのエージェントと $1$ つのターゲットを環境中にランダムに配置する．エージェントは自分を中心
yukimori_726 2016/06/01
reinforcementlearning
リンク
強化学習について学んでみた。（まとめ） - いものやま。
ということで、長く続いてきたけど、これでオシマイ。これまでの各記事は、以下から。強化学習とは？イントロダクション強化学習のコンセプト基本的な用語の定義「知識利用」と「探査」のバランスの問題非連想的な問題、n本腕バンディット問題 n本腕バンディット問題（プログラム）行動価値の推定と改善 n本腕バンディット問題 - εグリーディ法（プログラム） n本腕バンディット問題 - ソフトマックス法（プログラム）強化学習問題の数学的記述状態遷移のモデル、価値ベクトル、Bellman方程式動的計画法方策評価方策改善レンタカー問題 - 方策反復（プログラム）レンタカー問題 - 価値反復（プログラム）モンテカルロ法モンテカルロ法の考え方、モンテカルロ-ES法ブラックジャック - モンテカルロ-ES法（プログラム）方策オン型/オフ型モンテカルロ制御レーストラック問題 -
yukimori_726 2016/05/25
reinforcementlearning
リンク
【強化学習】最良経路探索 - Qiita
はじめに pythonのプログラムで最良経路探索問題を解いてみました．教科書として『強化学習』を使いました．本記事の構成はじめに最良経路探索ルール Q 値の更新実装結果おわりにルール図のような迷路での探索問題を考えます．白い丸がエージェント，赤がマイナス領域，青がゴールになります．ここでいう探索問題とは，ゴールに辿り着くまでの報酬を最大にする経路を探索することを指します．以下にルールを示します．迷路のサイズ： $6\times6$ それぞれの領域における報酬：黒の領域 $0$，赤の領域 $-1$，青の領域 $+3$ 青のゴールに辿り着いたら左上のスタート地点からやり直す Q 値の更新以下の式により $Q$ 値を更新します． Q_{new}(s_t, a) = Q_{old}(s_t, a) + \alpha\bigl[r_{t+1} + \gamma max_{
yukimori_726 2016/05/25
reinforcementlearning
リンク
A3Cという強化学習アルゴリズムで遊んでみた話
This document presents mathematical formulas for calculating gradients and updates in reinforcement learning. It defines a formula for calculating the gradient of a value function with respect to its parameters, a formula for calculating the gradient of a policy based on the reward and value, and a formula for calculating the gradient of a parameter vector that is a weighted combination of its pre
yukimori_726 2016/05/21
あとで読む
リンク
倒立振子でDQNにおけるモデルの複雑さと学習内容の関係をちらっと確かめてみた系の話 - めもめも
何の話かというと qiita.com 上記の記事では、「倒立振子」を題材にした、DQN（Deep Q Network）による強化学習の解説があり、非常によくまとまっています。一方、この記事の中では、全結合層を4層に重ねたネットワークを利用しているのですが、倒立振子の問題に限定すれば、もっとシンプルなネットワークでも対応できる気がしなくもありません。というわけで、「0層（パーセプトロン）」「1層」「2層」のネットワークでどこまで学習できるのか、モデルの複雑さと学習内容の関係を確認してみたよー、というのがこのブログのネタになります。 DQNとは？まずは簡単にDQNを解説しておきます。ビデオゲームの自動プレイで有名になりましたが、「与えられた環境において、最善の行動を選択する」という処理を実現することが目標です。ここで言う「行動」は、ビデオゲームの操作のように、「どのボタンを押すのか」と
yukimori_726 2016/05/20
dqn

reinforcementlearning
リンク
Terrain-Adaptive Locomotion Skills Using Deep Reinforcement Learning
Terr ain-Adaptive Locomotion Skills Using Deep Reinforcement Learning Transactions on Graphics (Proc. ACM SIGGRAPH 2016) (to appear) Xue Bin Peng Glen Berseth Michiel van de Panne University of British Columbia Reinforcement learning offers a promising methodology for developing skills for simulated characters, but typically requires working with sparse hand-crafted features. Building on re
yukimori_726 2016/05/18
algorithm

deeplearning

reinforcementlearning
リンク
TensorFlowでDQNを実装（したかった・・・） - Qiita
下記のような記事を読み、DQN（Deep Q-Network）って面白そうだな～と感心。最近話題のAlpha-GoもDQNの延長・・・なのかな？（よく分かってない） DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた倒立振子で学ぶ DQN (Deep Q Network) Chainerで機械学習と戯れる：足し算ゲームをChainerを使って強化学習できるか？そんなわけで、TensorFlowで実装してみようとしましたが・・・・(-_-;)？？？よく分かりません。いや、理論も数式もよく分かってないでやろうとしている私が問題なんですけど。TensorFlowの例も少な過ぎじゃないでしょうか。とりあえず見よう見真似で頑張ってみたので、勘違いや修正すべきところ等ありましたらコメントしていただけると幸いです。「この辺は正しい」「この辺はオカシイ」等でも大変助かりま
yukimori_726 2016/05/16
TensorFlow

dqn

reinforcementlearning
リンク
論文紹介 ~Playing Atari with Deep Reinforcement Learning~ - 分析インフラエンジニア(+α フロントエンド)　eratostennis's blog
Deep Learningなどの論文を読んだものを紹介していこうと思う。今日は、「Playing Atari with Deep Reinforcement Learning」。論文：http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf 概要 Q-learningの枠組みでAtari2600のゲームを学習し、従来の手法より良い結果を残し、さらには人間を越えるという結果も一部出たよというもの。理論的には、CNNでsgdを用いて重み修正していく。特徴課題(Deep Learningを用いて強化学習を行うために...) Deep Learningでは大量のラベル付けされたデータを必要とするが、あるシグナルを報酬として学習していく必要がある Deep Learningではサンプルデータの独立性を仮定しているこれらの課題を解決する為に、経験を保持して
yukimori_726 2016/05/15
deeplearning

reinforcementlearning

paper

dqn
リンク
CaffeでDeep Q-Networkを実装して深層強化学習してみた - 学生時代に頑張ったことが何もない
概要深層学習フレームワークCaffeを使って，Deep Q-Networkという深層強化学習アルゴリズムをC++で実装して，Atari 2600のゲームをプレイさせてみました． Deep Q-Network Deep Q-Network（以下DQN）は，2013年のNIPSのDeep Learning Workshopの"Playing Atari with Deep Reinforcement Learning"という論文で提案されたアルゴリズムで，行動価値関数Q(s,a)を深層ニューラルネットワークにより近似するという，近年の深層学習の研究成果を強化学習に活かしたものです．Atari 2600のゲームに適用され，既存手法を圧倒するとともに一部のゲームでは人間のエキスパートを上回るスコアを達成しています．論文の著者らは今年Googleに買収されたDeepMindの研究者です． NIPS
yukimori_726 2016/05/13
dqn

deeplearning

reinforcementlearning
リンク
深層強化学習論文リストを作り始めた - 学生時代に頑張ったことが何もない
前にDQNの再現の記事を書いてからほぼ1年が空いてしまいました．DQNの新しい論文が2月にNatureに載ったのは記憶に新しいですが，それから研究はさらに加速し，最近では自分の感覚としてはarxiv含めて平均すると1週間に1論文くらいのペースで深層強化学習の研究が発表されているのではないかと思います（ちゃんと計算してないので全然違ってたらすみません）．これだけ論文が増えるとまとめのようなものが欲しくなるので，自分で作ることにしました． https://github.com/muupan/deep-reinforcement-learning-papers まだだいぶ不完全ですし，論文リストをきちんとした形で作るのははじめてなのでいろいろと迷う部分があるのですが，これから少しずつ充実させていく予定です．
yukimori_726 2016/05/13
deeplearning

reinforcementlearning

paper
リンク
強化学習をベイズで理解する
yukimori_726 2016/05/13
reinforcementlearning

bayes
リンク
前のページ 1 2 3 次のページ