[B! reinforcementlearning][codereading] yukimori

強化学習 - Qiita

「機械学習と深層学習」の文献中に例題として取り上げられているプログラムを実装してみる。文献ではC言語でプログラムを記述しており、これをPythonで自分なりに実装してみた。今回は強化学習による迷路抜け知識の学習を取り上げる。強化学習とは一連の行動の最後に評価が与えられるような場合に用いる学習方法例）将棋教師あり学習の場合コンピュータプレイヤーが一手ごとにその手の評価を先生から教わる方法効率的な学習は可能だが、大量の教師データを用意する必要があり大変一手だけ取り出してその手が正しいかどうかは、多くの場合判断することができない強化学習の場合一連の着手が終了した後に評価を得て、その評価に基づいて学習を進めるゲームの勝敗によって評価（勝ち、負け、引き分け） → 報酬最終の評価から、一手一手の行動に関する知識を学習する Q学習強化学習を実現する方法として、Q学習があるあ

yukimori_726 2017/02/01

リンク

外部メモリ（External Memory）を利用した強化学習 - Qiita

今年（2016年）の8月9月にPFNのインターンに参加させてもらいました．そのインターンで，ICML2016にて発表されたControl of Memory, Active Perception, and Action in Minecraft (Oh et al. 2016)で提案されたニューラルネットを使った強化学習のモデルを実装しました．この記事はその解説です．実装にはChainerを使いました．実装はGithubにあります．ちなみに，レッドブルは一度も飲みませんでした（麦茶ばかり飲んでいた）．そもそも強化学習？ DQNとはなんぞや？ ugonamaさんがめっちゃわかりやすい記事を書いてくれているのでそっちを参照してください． Oh(2016)の概要 Oh(2016)は，部分的な観測（Partial observation）しか与えられないようなタスクを解くことを主眼として，

yukimori_726 2016/11/03

リンク

ChainerでDQN。強化学習を三目並べでいろいろ試してみた。（Deep Q Network、Q-Learning、モンテカルロ） - Qiita

ChainerでDQN。強化学習を三目並べでいろいろ試してみた。（Deep Q Network、Q-Learning、モンテカルロ）Python MachineLearningChainerReinforcementLearning 初めてのQiita投稿です。Ridge-iという会社で機械学習を中心としたコンサル～開発をしてます。強化学習について教える機会が出てきたので、三目並べをベースにモンテカルロ Q-Learning Deep Q Network (いわゆるDQN) についてJupyter（ipython) で実装して教材を作りました。ちなみに強いプレーヤー同士ならば、ドローだけが繰り返されるはずです。（WarGameの有名なやつですね。）結論としてはモンテカルロ　実装簡単。100回試行位でほぼ負けなし（50回くらいだと時々負ける） Q-Learning 　更新式の設計に気

yukimori_726 2016/10/02

リンク

いまさらだけどTensorflowでDQN（完全版）を実装する - Qiita

はじめにこの記事は前回の記事の続きです。前回は素のTensorflow(2016年7月時点)だけで実装できる、なんちゃってDQN(不完全版)を紹介しましたが、ここではMnihらの2015年の論文で実際に実装された方法を忠実に再現する方法について書いています。不完全版と今回の完全版の違い Optimizerを通常のRMSPropからA.Gravesが導入したRMSPropに変更 Loss clippingを行う特に1は問題で、素のTensorflowには実装されていないため、独自で実装する必要があります。ここでは、Tensorflowでの実装方法とそこから得られる結果を紹介します。 A.GravesによるRMSPropの実装 Tensorflowで新しいOptimizerを作るには、TensorflowのPythonコードとCppのコードに手を加える必要があります。具体的には下記

yukimori_726 2016/08/12

リンク

強化学習で考えるギャンブラーの最適行動 - kivantium活動日記

強化学習と呼ばれる機械学習の一分野があります。機械学習というと、入力に対して正解の出力を当てる教師あり学習が話題になることが多いですが、強化学習では明示的に正解が与えられません。ある行動を試してみて、それに対して得られる「報酬」から自分でどのような行動が良い結果をもたらすのかを判断して、より良い行動を学習するアルゴリズムになっています。強化学習にはチェスやリバーシなどといったボードゲームのAIやロボットの行動学習などの応用例があります。この前話題になったDeep Q Network、通称DQNも強化学習の一種です。応用例が面白いにも関わらず、PRMLなどの主要な機械学習の教科書では強化学習を扱わないことが多いので、いま強化学習だけの参考書を買って勉強しています。強化学習作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章出版社/メーカー: 森北出

yukimori_726 2015/09/30

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

reinforcementlearningとcodereadingに関するyukimori_726のブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス