タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

rlに関するma38suのブックマーク (4)

  • DQNを卒業してA3Cで途中挫折しないための7Tips - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに ネットの数多あるコードを眺めたり、文献を読みながら、自分自身でA3Cの再現を試みたところ、落とし穴が多すぎて闇が深いと感じたので、そんな闇にはまるのは自分で最後にするため、ハマったところをTipsという形でまとめてみました これから自分でコード書いて頑張ってみようと思っている方はこれをみて少しでも闇にはまらないことを願っています A3Cってなに A3CはAsynchronous Advantage Actor-Criticの略で、2016年にあのDQNでおなじみのDeepMind社が発表した、 早い:Asynchronousか

    DQNを卒業してA3Cで途中挫折しないための7Tips - Qiita
    ma38su
    ma38su 2018/09/20
  • これさえ読めばすぐに理解できる強化学習の導入と実践

    強化学習の位置づけ 教師あり学習 教師なし学習 強化学習 強化学習の応用事例 Atariの攻略 AlphaGo ロボットの自動動作獲得 ファイナンスへの応用 広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる 状態 行動 報酬 実装 参考文献 ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識することや病気の診断、多言語間の翻訳をする性能を著しく向上させることができました。 すでにその性能は専門的な教育を受けた人間の能力と同等 [1] か超えている分野もあるほどです。 一方で、人間にはデータを与えなくとも自ら経験から学び、スキルを上達させることができます。特に何も教えられなくとも、経験からゲームを攻略することやロボットの正しい動作の仕方を学んでいくことができます。 機械学習の中でも、こ

    これさえ読めばすぐに理解できる強化学習の導入と実践
    ma38su
    ma38su 2017/08/12
  • いまさらだけどTensorflowでDQN(完全版)を実装する - Qiita

    はじめに この記事は前回の記事の続きです。 前回は素のTensorflow(2016年7月時点)だけで実装できる、なんちゃってDQN(不完全版)を紹介しましたが、ここではMnihらの2015年の論文で実際に実装された方法を忠実に再現する方法について書いています。 不完全版と今回の完全版の違い Optimizerを通常のRMSPropからA.Gravesが導入したRMSPropに変更 Loss clippingを行う 特に1は問題で、素のTensorflowには実装されていないため、独自で実装する必要があります。 ここでは、Tensorflowでの実装方法とそこから得られる結果を紹介します。 A.GravesによるRMSPropの実装 Tensorflowで新しいOptimizerを作るには、TensorflowのPythonコードとCppのコードに手を加える必要があります。 具体的には下記

    いまさらだけどTensorflowでDQN(完全版)を実装する - Qiita
    ma38su
    ma38su 2017/02/13
  • 倒立振子でDQNにおけるモデルの複雑さと学習内容の関係をちらっと確かめてみた系の話 - めもめも

    何の話かというと qiita.com 上記の記事では、「倒立振子」を題材にした、DQN(Deep Q Network)による強化学習の解説があり、非常によくまとまっています。 一方、この記事の中では、全結合層を4層に重ねたネットワークを利用しているのですが、倒立振子の問題に限定すれば、もっとシンプルなネットワークでも対応できる気がしなくもありません。 というわけで、「0層(パーセプトロン)」「1層」「2層」のネットワークでどこまで学習できるのか、モデルの複雑さと学習内容の関係を確認してみたよー、というのがこのブログのネタになります。 DQNとは? まずは簡単にDQNを解説しておきます。 ビデオゲームの自動プレイで有名になりましたが、「与えられた環境において、最善の行動を選択する」という処理を実現することが目標です。ここで言う「行動」は、ビデオゲームの操作のように、「どのボタンを押すのか」と

    ma38su
    ma38su 2016/12/31
  • 1