[B! 強化学習][機械学習] chess-newsのブックマーク

chess-news id:chess-news

強化学習と機械学習に関するchess-newsのブックマーク (11)

TensorFlowで始める深層学習　(３)機械学習から深層学習の扉を開く - ぐるなびをちょっと良くするエンジニアブログ
こんにちは！かわしま@食を楽しむエンジニアです。先日クッキーの詰め合わせをいただきました。「クッキーなんて」と思わないで下さい。注文から２か月待ち、初めて買うには紹介が必要な、麹町にある老舗洋菓子店・村上開新堂のクッキーなのです。 * 京都にある同名のお店とは違います食後にもかかわらず、全27種類を食べてしまいました (甘いものは別腹とか言いますが、人によります。私は別にならない側ですｗ)。そんな私でも、このクッキーは食べやすく飽きがこないことにびっくり。素朴な風味を守りつつ、時代に合わせて少しずつ改良をしていると想像できます。村上開新堂の歴史が始まったのが明治1年、その頃の日本のお菓子の歴史をみてみると 1868年（明治1年）村上光保（むらかみみつやす）が、国家政策の一環として洋菓子製造技術習得を命じられたことが、村上開新堂の歴史のはじまり 1875年（明治8年）米津風月堂で
chess-news 2017/05/28
　洋菓子

機械学習

TensorFlow

強化学習
リンク
NeuroEvolutionモデル〜深層学習と遺伝的アルゴリズムの融合モデルについて - Qiita
NeuroEvolutionモデル〜深層学習のネットワーク構成と隠れ層のパラメータを環境の変化に適応させながら、「進化論的」に世代を繰り返して、動的に修正進化するモデル１. 今回見つけたもの NeuroEvolution: Evolutionary Artificial Neural Network, EANN ＝「ニューラルネットワーク」or 「深層ニューラルネットワーク」 × 「遺伝的進化計算アルゴリズム」 Wikipedia NeuroEvolution Neuroevolution または Neuro-evolution は人工ニューラルネットワークの学習に遺伝的アルゴリズムを用いる機械学習の手法である。ネットワークの性能を測るのが容易であるが、教師あり学習を用いて正しい入力と出力の対の概要を作るのが困難または不可能であるゲームやロボットのモーター制
chess-news 2017/05/27
deep learning

analytics

machine-learning

reinforcementlearning

dqn

機械学習

強化学習

GA
リンク
ゼロからDeepまで学ぶ強化学習 - Qiita
ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ
chess-news 2017/05/19
　教科学習の考え方について

DeepLearning

deep learning

機械学習

AI

強化学習

machine learning

dqn

deep q learning
リンク
Q学習 - Wikipedia
Q学習（Qがくしゅう、英: Q-learning）は、機械学習分野における強化学習の一種である。概要[編集] Q学習は強化学習の方策オフ型時間差分法の一つである。概念自体は古くから存在するが、Q学習（Q-learning）という名前で今日の手法がまとめられたのは、1989年のクリストファー・ワトキンズ（Christopher J.C.H. Watkins）の博士論文に端を発する。[1] TD学習はになるように学習させるが、Q学習はこれをに置き換えたものである。状態価値関数の代わりに、行動価値関数を使用する。 Q学習は有限マルコフ決定過程において全ての状態が十分にサンプリングできるようなエピソードを無限回試行した場合、最適な評価値に収束することが理論的に証明されている。実際の問題に対してこの条件を満たすことは困難ではあるが、この証明はQ学習の有効性を示す要素の一つとして挙げられる。
chess-news 2017/05/14
機械学習

強化学習
リンク
Pythonではじめる強化学習 - Qiita
はじめにみなさん、強化学習してますか？強化学習はロボットや、囲碁や将棋のようなゲーム、対話システム等に応用できる楽しい技術です。強化学習とは、試行錯誤を通じて環境に適応する学習制御の枠組みです。教師あり学習では入力に対する正しい出力を与えて学習させました。強化学習では、入力に対する正しい出力を与える代わりに、一連の行動に対する良し悪しを評価する「報酬」というスカラーの評価値が与え、これを手がかりに学習を行います。以下に強化学習の枠組みを示します。エージェントは時刻 $t$ において環境の状態 $s_t$ を観測観測した状態から行動 $a_t$ を決定エージェントは行動を実行環境は新しい状態 $s_{t+1}$ に遷移遷移に応じた報酬 $r_{t+1}$ を獲得学習するステップ1から繰り返す強化学習の目的は、エージェントが取得する利得（累積報酬）を最大化するような、状態
chess-news 2017/05/14
機械学習

強化学習

MachineLearning
リンク
Gym
Gym is a standard API for reinforcement learning, and a diverse collection of reference environments# The Gym interface is simple, pythonic, and capable of representing general RL probl ems: import gym env = gym.make("LunarLander-v2", render_mode="human") observation, info = env.reset(seed=42) for _ in range(1000): action = policy(observation) # User-defined policy function observation, reward, ter
chess-news 2017/05/13
　環境　モデル

機械学習

強化学習

python

tensorflow

OpenAI_Gym

倒立振子
リンク
DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた - Qiita
はじめにそもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました公開しました。またどうせ公開するなら、この機会にこれ（Q学習+関数近似）関連で持っている知識をついでに整理しようと思ってまとめました。ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー！！！って感覚になりそうですが、強化学習的な歴史的経緯を考えると強化学習+深層学習になった、むしろかなり当然の成り行きで生まれた技術であることがわかります。（ATARIのゲームを人間以上のパフォーマンスでプレイするというのがビジュアル的にわかりやすかった$\leftrightarrow$問題設定が良かったというのもあります。）この記事ではNIPSとNatureの以下の２本の論文・ V
chess-news 2017/05/01
　DQNとは

deeplearning

deepmind

強化学習

DQN

機械学習

Deep Learning

machine learning
リンク
Deep Learningを用いたロボット制御
最先端のアルゴリズムがgithubなどから手軽に入手できるようになったことで、ビジネスの現場では、アルゴリズムやモデルの改善より、アノテーションデータの質や量を改善する方が実用化を目指す上でよりコストメリットのいいアプローチとなりつつあります。本発表では、従来のモデル改善を中心としたMLOpsの考え方と異なり、データ（アノテーションデータ）改善を中心としたMLOpsの考え方をご紹介します。
chess-news 2017/04/30
chainer

deep learning

ロボット

強化学習

機械学習

ETロボコン

deeplearning
リンク
倒立振子で学ぶ DQN (Deep Q Network) - Qiita
強化学習の一手法であるQ-learning とディープニューラルネットを組み合わせた Deep Q Network、通称DQNを使って倒立振子の振り上げ問題を解決してみます。問題設定「倒立振子の振り上げ問題」というのは、今回はこういう問題設定です。まず空中に静止したモータがあって、モータ軸に棒の一端がつながっています。棒は中心に質量が集中していて剛性$\infty$で太さ0の、よくある棒です。初期状態では棒は重力にしたがって下向きにぶら下がっています。この状態から振り子を振り上げて倒立状態で静止させてください、という問題です。古きよき制御工学では、振り上げ用と静止用に別設計されたコントローラを2つ用意して切り替えるなど、非線形要素を含むコントローラを用いて対処することになります。いや、やったことないですけど、そうらしいです。今回は、モータは右か左に一定トルクの回転しかできない、とし
chess-news 2017/04/30
機械学習

deeplearning

倒立振子

dqn

machinelearning

強化学習

qlearning

deep q learning
リンク
分散深層強化学習でロボット制御 - Preferred Networks Research & Development
新入社員の松元です。はじめまして。 “分散深層強化学習”の技術デモを作成し、公開いたしました。ロボットカーが0から動作を学習していきます！まずはこの動画を御覧ください。以下で、動画の見どころと、使っている技術を紹介します。動画の見どころ Car 0(○の付いている車)が右折カーブの手前で減速する様子(右画面の白いバーのところが、ブレーキのところで赤くなっている。ニューラルネットはブレーキが最も多く報酬が得られると推測していることがわかる)。速い速度ほど報酬は大きいが、カーブを曲がりきれず壁にぶつかってしまうので学習が進むとカーブ手前でのみ減速するようになる。目の前に車がいるときは一時停止して、いなくなってから加速する。エチオピアには本当にこのような交差点があるらしい。ぎりぎりですれ違う2台。学習途中ではすれ違いきれずにぶつかって倒れてしまうこともある(早送りシーン中に人が写って
chess-news 2015/06/10
ロボット

Deep Learning

DeepLearning

機械学習

強化学習

machine learning

AI

car

it
リンク
強化学習とは？(What is Reinforcement Learning?)
強化学習の概要，応用上の利点，適用例，基礎理論，代表的手法，応用に必要な技術などの説明。本ページの記述は下記の解説記事をもとにWEB用に修正したものである：木村元，宮崎和光，小林重信：強化学習システムの設計指針，計測と制御, Vol.38, No.10, pp.618--623 (1999), 計測自動制御学会. 6 pages, postscript file, sice99.ps (1.31MB) PDF file, sice99.pdf (148KB) 第１章：強化学習の概要 1.1 強化学習 (Reinforcement Learning) とは? 1.2 制御の視点から見た強化学習の特徴 1.3 応用上期待できること第２章：強化学習の適用例：ロボットの歩行動作獲得第３章：強化学習の基礎理論 3.1 マルコフ決定過程(Markov decision proc
chess-news 2015/01/16
強化学習

機械学習

学習

machine learning

アルゴリズム

algorithm
リンク
1