サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
体力トレーニング
qiita.com/chachay
書きました https://t.co/m4YhZolDjD — mooopan (@mooopan) February 20, 2017 ということでChainerの強化学習版ChainerRLが公開されていました。 このところ手を広げすぎていて中々丁寧な仕事ができない中、 30分 x 2日でDouble DQNでライントレーサーできました。ライブラリ便利で助かる! 使用環境 Windows 10 - 64bit <諦めが悪い心の強さ…!> Python 3.6.0 |Anaconda 4.3.0 (64-bit) <プライドより実利!> ChainerRL 0.2 < Dependency緩くしてほしい> Chainer 1.19 <1.20でTheanoのお世話できてない!会社ではTheano動いたのに。>
RNNにsin波を学習させて予測してみた - Qiitaを参考に下記にトライ。 Chainerで時系列データ予測 with LSTM ChainerのtrainerでLSTM 必要なものなど chainerとmatplotlibがあれば動きます。 %matplotlib inline import numpy as np import chainer import chainer.functions as F import chainer.links as L from chainer import report, training, Chain, datasets, iterators, optimizers from chainer.training import extensions from chainer.datasets import tuple_dataset import
強化学習といえばDeep Q learningみたいなのりで、DQNがもてはやされていますが、AlphaGoとかロボットの機械学習では数年前くらいからActor-Criticに移行してきているように見えます。 その一方でパワーポイントに飼い慣らされた漫画お脳には論文なんて読んでも面白みがない感じの毎日なのに、一方に解説が出てくる気配が感じられません。ということで、鳩山イニシアチブが如く、恥を忍んで今の理解をざっくり紙芝居にします。 復習 強化学習 だいたい世の強化学習ってこんな絵で始まります。 これをロボット制御に使う場合は実際の出力は、動作指令値であって出力ではなく、こんな感じ。 神の設計というか、リワードの設計がいろいろ面倒で、OpenAIとかdeep mindとかからの共同論文にも言及ありましたね。 ここでAgentが獲得を目指すのはQ値で評価される値で長期的にみて報酬rの合計値が最
# -*- coding: utf-8 -*- import wx import wx.lib import wx.lib.plot as plot import math import random as rnd import numpy as np import copy # import pickle # Steps looking back STATE_NUM = 2 # State STATE_NUM = 2 NUM_EYES = 9 STATE_DIM = NUM_EYES * 3 * 2 class SState(object): def __init__(self): self.seq = np.ones((STATE_NUM, NUM_EYES*3), dtype=np.float32) def push_s(self, state): self.seq[1:STATE_
みなさん ライントレーサーってご存知ですか? メカトロの入門として遊んだ方もいくらかいるのではないでしょうか。 今回はChainerでやってみるDeep Q Learning - 立ち上げ編 に引き続き、 基礎体力づくりとしてライントレーサーにDQNで校庭を走らせることにしました。 GitHubにも置きました。良いパラメータやモデル、アルゴリズムなど見つけたら教えてください。 GitHub : DeepQNetworkTest/DQN003.py プログラムの雰囲気 ライントレーサーは前記Youtubeのロボと同様に光センサ1個の情報で動きます。 走行はmobile robot風に左輪と右輪の速度差などで向きを変えたり前進したりする仕様。慣性はない。 線の太さはグラフィックとして書かれている1pxを中心に幅10pxです。 緑色 そっけないルールベース ライントレーサー # 線が見えていると
こんにちは 本業はプログラマじゃない人です。 テレビで「ディープラーニング」というキーワードがバズっているときに、 分散深層強化学習でロボット制御 | Preferred Researchを見て、 試してみたいことが出てきたので、いきなりクローンとは言わず、まず簡単なものから作った。 ⇒ 置き場:DeepQNetworkTest 狙い Pythonも初めて!Chainerも初めて! プログラミングの作法すら分からないのに周囲にソフト屋さんがいない! でも、自走機械に強化学習というのをやらせてみたい! ⇒ とりあえず公開すれば教えてくれる人が出てくるかもしれない 慣性とか持っている機械を動かして見せてる事例が本当に少ない(気がする) ⇒ 次のステップで入れてみよう やったこと ConvNetJS Deep Q Learning Reinforcement Learning with Neur
このページを最初にブックマークしてみませんか?
『@chachayのマイページ - Qiita』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く