[B! 強化学習] [2ページ] tsu-neraのブックマーク

Policy Gradient to solve CartPole-v0 in OpenAI gym

tsu-nera 2017/07/05

リンク

Training a Neural Network ATARI Pong agent with Policy Gradients from raw pixels

tsu-nera 2017/07/05

リンク

[Reinforcement Learning / review article / not use tensorflow] Policy Gradient (CartPole)

tsu-nera 2017/07/05

リンク

Microsoft PowerPoint - Ag4.ppt [Modalitat compatibilitat]

Mario Martin – Autumn 2011 LEARNING IN AGENTS AND MULTIAGENTS SYSTEMS Reinforcement Learning Searching for optimal policies I: Bellman equations and optimal policies Mario Martin Universitat politècnica de Catalunya Dept. LSI Mario Martin – Autumn 2011 LEARNING IN AGENTS AND MULTIAGENTS SYSTEMS How to find optimal policies • Bellman equations for value functions • Evaluation of policies • Properti

tsu-nera 2017/07/05

強化学習

リンク

SSSSLIDE

tsu-nera 2017/07/05

強化学習

リンク

Home - Ike-ON

Unlock Your Potential: Top 10 Reasons to Learn Python Python is one of the most popular programming languages in the world. As techno logy advances and more companies use Python … Read More C# course from scratch for beginners If you have only a general idea of what programming is and have never been professionally engaged in it, we recommend that you start learning from the very basics. Read More

tsu-nera 2017/07/05

リンク

連続な空間における強化学習

説明用OHP資料離散的ではない空間のValueを学習するには？離散状態表現による近似離散状態表現による近似の問題点線形アーキテクチャによる汎化と関数近似 Radial Basis Function (RBF)を用いた線形アーキテクチャ線形アーキテクチャにおける更新処理(TD法) 線形アーキテクチャを用いたTD法の更新例線形アーキテクチャにおける更新処理(Q-learning) 線形アーキテクチャによる汎化と関数近似：特徴ベクトルについて連続な行動空間を扱う強化学習：Actor-Critic Actor-Criticを連続行動空間へ拡張するには？連続な行動空間を扱う強化学習：Q-learning (1) 連続な行動空間を扱う強化学習：Q-learning (2) 参考文献 [Baird 95b] Baird, L.: Residual Algorithms: Reinforc

tsu-nera 2017/07/05

強化学習

リンク

GitBook – Knowledge management for technical teams

tsu-nera 2017/07/05

強化学習

リンク

DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた - Qiita

はじめにそもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました公開しました。またどうせ公開するなら、この機会にこれ（Q学習+関数近似）関連で持っている知識をついでに整理しようと思ってまとめました。ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー！！！って感覚になりそうですが、強化学習的な歴史的経緯を考えると強化学習+深層学習になった、むしろかなり当然の成り行きで生まれた技術であることがわかります。（ATARIのゲームを人間以上のパフォーマンスでプレイするというのがビジュアル的にわかりやすかった$\leftrightarrow$問題設定が良かったというのもあります。）この記事ではNIPSとNatureの以下の２本の論文・ V

tsu-nera 2017/07/02

リンク

強化学習入門～これから強化学習を学びたい人のための基礎知識～ - Platinum Data Blog by BrainPad

こんにちは。アナリティクスサービス本部の仲田です。本日は、「強化学習」について、その基礎的なアルゴリズムと、簡単なデモをご紹介します。強化学習とは機械学習の手法のひとつ (画像はhttps://www.engadget.com/2016/03/12/watch-alpha go-vs-lee-sedol-round-3-live-right-now/より) 「強化学習（Reinforcement Learning）」と呼ばれる学問分野をご存知でしょうか。機械学習にはさまざまな分類方法がありますが、「教師付き学習（Supervised Learning）」「教師なし学習（Unsupervised Learning）」「強化学習」という3種類に分ける考え方があります。この考え方では、強化学習は機械学習のひとつの大きな分野をなすということになります。 (画像は UCL Course on

tsu-nera 2017/07/02

強化学習

リンク

Vol.26 No.3 (2011/05) 強化学習 – 人工知能学会 (The Japanese Society for Artificial Intelligence)

私のブックマーク強化学習東京大学総括プロジェクト機構牧野貴樹はじめに試行錯誤を通じて環境に適応する学習・制御の枠組みである強化学習について、内容は知らなくとも、耳にしたことのある方は多いと思います。ロボットの制御における行動選択の要として、また、神経科学における報酬・学習のシステムを理解するための鍵として、多くの研究がすすめられている分野です。ここでは、強化学習の研究に関するページやリソースを紹介します。強化学習入門強化学習とは? http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html 九州大学の木村元先生のページです。web 上で強化学習を日本語で勉強したいなら、ここからはじめるといいでしょう。1999年の記事なので、多少古いですが、考え方を理解する入口としては十分な内容です。 Reinforcement Lea

tsu-nera 2017/06/21

強化学習

リンク

Q学習を使った三目並べの強化学習ついて現在、強化学習の勉強の1つとして、以下の本とWebサイトを参考に三目並べのプログラムを書いて... - Yahoo!知恵袋

Q学習を使った三目並べの強化学習ついて現在、強化学習の勉強の1つとして、以下の本とWebサイトを参考に三目並べのプログラムを書いているところです。 Q学習を使った三目並べの強化学習ついて現在、強化学習の勉強の1つとして、以下の本とWebサイトを参考に三目並べのプログラムを書いているところです。本:「強くなるロボティック・ゲームプレイヤーの作り方」 Webサイト:「三目並べを強化学習する」 http://qiita.com/shima_x/it ems/5db754279cf29be8d953#1-3 このWebサイト内で公開されているPythonのプログラムを基にして、モンテカルロ法からQ学習に書き換えようとしているのですが、trainメソッド内でQ関数を更新する際、更新式 self.Q[pstate,paction] = self.Q[pstate,paction] + option

tsu-nera 2017/06/20

強化学習

リンク

CMU 10703: Deep RL and Control

Deep Reinforcement Learning and Control Spring 2017, CMU 10703 Instructors: Katerina Fragkiadaki, Ruslan Satakhutdinov Lectures: MW, 3:00-4:20pm, 4401 Gates and Hillman Centers (GHC) Office Hours: Katerina: Thursday 1.30-2.30pm, 8015 GHC Russ: Friday 1.15-2.15pm, 8017 GHC Teaching Assistants: Devin Schwab: Thursday 2-3pm, 4225 NSH Chun-Liang Li: Thursday 1-2pm, 8F Open study area GHC Renato Negrin

tsu-nera 2017/06/17

強化学習

リンク

強化学習：ノート11 - クッキーの日記

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp 前回：ノート10 ／次回：まだ目次：強化学習読んだページ： 119～147ページ以下、自分の理解。この本の2部で紹介される手法の特徴（111～113ページ、142ページ）：方策と価値関数を交互に改善していく考え方は共通だが、以下の点が異なる。環境のダイナミクス（つまり、次のステップの状態の確率分布と報酬の期待値）が予め必要か。ブートストラップするか（つまり、ある状態の価値の推定に、他の状態の価値の推定値を用いるか）。動的計画法必要。ブートストラップする。モンテカルロ法不要。ブートストラップしない。 TD学習不要。ブートストラップする。ブートストラップ＝靴ひも。スポットレートやディスカウントファクターの

tsu-nera 2017/06/16

リンク

強化学習について学んでみた。（その16） - いものやま。

昨日はモンテカルロ-ES法を使ってブラックジャックのAIをプログラミングした。今日は、開始点探査の仮定を外す方法について考えていく。方策オン型手法と方策オフ型手法まず、開始点探査の仮定を外す方法として、大きく分けて2通りの方法が考えられる。一つは、方策を決定論的なもの（＝各状態で選ばれる行動は常に同じ）からソフトなもの（＝各状態で選ばれる行動は確率に従う）へ変更して、任意の状態行動対についてであることを保証する方法。こうすることで、開始点探査の仮定を入れなくても、任意の状態行動対が観測されるようになる。もう一つは、評価、改善しようとしている方策とは別の方策を使って状態行動対の列を観測し、その観測結果を使って方策の評価/改善をする方法。そのようなことが可能であれば、たとえ方策が決定論的なものであったとしても、状態行動対の列を生む方策としてソフトなものを使うことで、開始点探査の仮

tsu-nera 2017/06/16

リンク

強化学習について学んでみた。（その14） - いものやま。

久々に強化学習の話。前回は、価値反復について説明し、プログラムを書いてみた。今日からは、そもそも状態遷移のモデルが分からない場合に、どうすればいいのかを考えていく。おさらいまず、以下の記事で状態遷移のモデルとBellman方程式について説明した。ここでは3つの課題を挙げているけど、もしモデル（状態遷移の確率、および、報酬の期待値）が分かっているなら、方策反復や価値反復を使って方策を改善していけることが分かった。しかし、実際にはモデルが分かるということはあまりない。例えば、将棋である局面から次の局面にどのように遷移するかの確率が分かるかといえば、まず分からない。なので、最後の課題、そもそも状態遷移のモデルが分からない場合にはどうすればいいのか、を考える必要がある。基本的な考え方じゃあ、どうすればいいのかというと、基本的な考え方は簡単。実際に何度もやってみればいいじゃん、

tsu-nera 2017/06/16

リンク

Deep Reinforcement Learning

tsu-nera 2017/06/16

リンク

Deep Reinforcement Learning

2nd Multidisciplinary Conference on Reinforcement Learning and Decision Making (RLDM), Edmonton 2015 author: David Silver, Department of Computer Science, University College London published: July 28, 2015, recorded: June 2015, views: 122681

tsu-nera 2017/06/16

リンク

深層強化学習：ピクセルから『ポン』 – 前編 | POSTD

(訳注：2016/6/28、記事を修正いたしました。) 本記事は、もう随分と前から投稿したいと思っていた強化学習（RL）に関するものです。RLは盛り上がっています。皆さんも既にご存知のこととは思いますが、今やコンピュータは ATARI製ゲームのプレイ方法を自分で学習することができ（それも生のゲーム画像のピクセルから！）、囲碁の世界チャンピオンにも勝つことができます。シミュレーションの四肢動物は走って飛び跳ねることを学習しますし、ロボットは明示的にプログラミングするのが難しいような複雑な操作のタスクでも、その実行方法を学習してしまいます。こうした進歩はいずれも、RL研究が基となって実現しています。私自身も、ここ1年ほどでRLに興味を持つようになりました。これまで、 Richard Suttonの著書で勉強し、 David Silverのコースを通読、 John Schulm

tsu-nera 2017/06/15

強化学習

リンク

「これからの強化学習」1章の内容で三目並べ - Gunosyデータ分析ブログ

こんちくわ。データ分析部兼サウンドエンジニアの大曽根です。最近は吾妻光良&The Swingin Buppersのライブに行きました。今回は4/12に開催した「これからの強化学習」の輪読会の1.3節で紹介した価値反復法のアルゴリズムを、教科書とは異なる例で実装してみました。開催報告については下記のブログをご覧ください。 data.gunosy.io メジャーなゲームである三目並べを、1.3節にて紹介されているSarsaを用いて学習しました。教科書とは別の例で実装することで少しでも理解が深まればと思います。価値反復に基づくアルゴリズムマルコフ決定過程において価値関数を特定の更新式に従って更新する手法です。(今回はSarsaで試しました。) 発表の際には、tの状態の更新式に次の状態 t+1が含まれているところなどがわかりづらいとの質問を受けました。価値反復に基づくアルゴリズムでは過

tsu-nera 2017/06/14

リンク

はてなブックマーク

タグ

関連タグで絞り込む (18)

強化学習に関するtsu-neraのブックマーク (70)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス