タグ

reinforcementlearningとcodereadingに関するyukimori_726のブックマーク (5)

  • 強化学習 - Qiita

    機械学習と深層学習」の文献中に例題として取り上げられているプログラムを実装してみる。 文献ではC言語でプログラムを記述しており、これをPythonで自分なりに実装してみた。 今回は強化学習による迷路抜け知識の学習を取り上げる。 強化学習とは 一連の行動の最後に評価が与えられるような場合に用いる学習方法 例)将棋 教師あり学習の場合 コンピュータプレイヤーが一手ごとにその手の評価を先生から教わる方法 効率的な学習は可能だが、大量の教師データを用意する必要があり大変 一手だけ取り出してその手が正しいかどうかは、多くの場合判断することができない 強化学習の場合 一連の着手が終了した後に評価を得て、その評価に基づいて学習を進める ゲームの勝敗によって評価(勝ち、負け、引き分け) → 報酬 最終の評価から、一手一手の行動に関する知識を学習する Q学習 強化学習を実現する方法として、Q学習がある あ

    強化学習 - Qiita
  • 外部メモリ(External Memory)を利用した強化学習 - Qiita

    今年(2016年)の8月9月にPFNのインターンに参加させてもらいました. そのインターンで,ICML2016にて発表されたControl of Memory, Active Perception, and Action in Minecraft (Oh et al. 2016)で提案されたニューラルネットを使った強化学習のモデルを実装しました.この記事はその解説です.実装にはChainerを使いました. 実装はGithubにあります. ちなみに,レッドブルは一度も飲みませんでした(麦茶ばかり飲んでいた). そもそも強化学習? DQNとはなんぞや? ugonamaさんがめっちゃわかりやすい記事を書いてくれているのでそっちを参照してください. Oh(2016)の概要 Oh(2016)は,部分的な観測(Partial observation)しか与えられないようなタスクを解くことを主眼として,

    外部メモリ(External Memory)を利用した強化学習 - Qiita
  • ChainerでDQN。強化学習を三目並べでいろいろ試してみた。(Deep Q Network、Q-Learning、モンテカルロ) - Qiita

    ChainerでDQN。強化学習を三目並べでいろいろ試してみた。(Deep Q Network、Q-Learning、モンテカルロ)PythonMachineLearningChainerReinforcementLearning 初めてのQiita投稿です。Ridge-iという会社で機械学習を中心としたコンサル~開発をしてます。 強化学習について教える機会が出てきたので、三目並べをベースに モンテカルロ Q-Learning Deep Q Network (いわゆるDQN) についてJupyter(ipython) で実装して教材を作りました。 ちなみに強いプレーヤー同士ならば、ドローだけが繰り返されるはずです。(WarGameの有名なやつですね。) 結論としては モンテカルロ 実装簡単。100回試行位でほぼ負けなし(50回くらいだと時々負ける) Q-Learning  更新式の設計に気

    ChainerでDQN。強化学習を三目並べでいろいろ試してみた。(Deep Q Network、Q-Learning、モンテカルロ) - Qiita
  • いまさらだけどTensorflowでDQN(完全版)を実装する - Qiita

    はじめに この記事は前回の記事の続きです。 前回は素のTensorflow(2016年7月時点)だけで実装できる、なんちゃってDQN(不完全版)を紹介しましたが、ここではMnihらの2015年の論文で実際に実装された方法を忠実に再現する方法について書いています。 不完全版と今回の完全版の違い Optimizerを通常のRMSPropからA.Gravesが導入したRMSPropに変更 Loss clippingを行う 特に1は問題で、素のTensorflowには実装されていないため、独自で実装する必要があります。 ここでは、Tensorflowでの実装方法とそこから得られる結果を紹介します。 A.GravesによるRMSPropの実装 Tensorflowで新しいOptimizerを作るには、TensorflowのPythonコードとCppのコードに手を加える必要があります。 具体的には下記

    いまさらだけどTensorflowでDQN(完全版)を実装する - Qiita
  • 強化学習で考えるギャンブラーの最適行動 - kivantium活動日記

    強化学習と呼ばれる機械学習の一分野があります。機械学習というと、入力に対して正解の出力を当てる教師あり学習が話題になることが多いですが、強化学習では明示的に正解が与えられません。ある行動を試してみて、それに対して得られる「報酬」から自分でどのような行動が良い結果をもたらすのかを判断して、より良い行動を学習するアルゴリズムになっています。 強化学習にはチェスやリバーシなどといったボードゲームAIやロボットの行動学習などの応用例があります。この前話題になったDeep Q Network、通称DQNも強化学習の一種です。応用例が面白いにも関わらず、PRMLなどの主要な機械学習の教科書では強化学習を扱わないことが多いので、いま強化学習だけの参考書を買って勉強しています。 強化学習 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章出版社/メーカー: 森北出

    強化学習で考えるギャンブラーの最適行動 - kivantium活動日記
  • 1