タグ

ブックマーク / mikilab.doshisha.ac.jp (3)

  • http://mikilab.doshisha.ac.jp/dia/research/person/suyara/report2001/eighth/actor-critic.htm

    teddy-g
    teddy-g 2016/02/17
    Actor-Criticアルゴリズムの説明として非常に単純でわかりやすい。
  • Q-Learning

    Q-Learning Q-LearningはTD学習の一つである.ただし,Q-Learningでは状態と行動を一つのセットとして考える.具体的な例をみながら説明をする. 以下のように状態が遷移する環境があったとする. ここで,状態と行動をセットにして,評価値をセットする.たとえば,状態1における,行動Aと状態1における行動Bをそれぞれ評価するのである.つまり というように図示することができる.このように,それぞれの状態に,その状態で選択できる行動の数だけ評価値がある. このような状態に関連づけられている行動の評価値がどのように更新されるかを考える.それぞれの評価値をQ値と呼ぶ.Q値の更新式は という形で表される.TD学習では遷移した次の状態の評価値をみるが,Q-Learningではその状態について複数の行動に関連づけられた評価値を持つため,その中で最大のものをみる. 実際に状態遷移を繰り返

    teddy-g
    teddy-g 2016/02/16
    強化学習のひとつ、Q学習のアルゴリズムについて。Q値を使うからQ学習。
  • Actor-Critic

    Actor-Critic Actor-CriticはTD学習を用いたもっとも初期の強化学習システムで用いられていたものである. しかし,この学習法には以下の2点のメリットがあり,今後も注目され続けるであろう. 行動選択に最小限の計算量しか必要としない.たとえば,連続値行動のように,可能な行動の個数が無限大である場合,行動価値を学習方法(Q-Learningなど)では1つの行動を選び出すために無限集合のなかを探索することになる. 確率的な行動選択を学習することができる.すなわち,いろいろな行動に対して,それを選択するような最適確率を学習することができる. 具体的に,どうしてそのようなことが可能となるのか,Actor-Criticの仕組みについて説明していく. 例として,次のように状態が遷移する環境を挙げる. なぜこのような環境を例としてあげたか.行動の数を多いような環境を示したかったためであ

    teddy-g
    teddy-g 2016/02/16
    Actor-Critic algorithmについて。正解を出しやすいように正規乱数の中心と偏差をずらす。
  • 1