タグ

ブックマーク / mikilab.doshisha.ac.jp (1)

  • Q-Learning

    Q-Learning Q-LearningはTD学習の一つである.ただし,Q-Learningでは状態と行動を一つのセットとして考える.具体的な例をみながら説明をする. 以下のように状態が遷移する環境があったとする. ここで,状態と行動をセットにして,評価値をセットする.たとえば,状態1における,行動Aと状態1における行動Bをそれぞれ評価するのである.つまり というように図示することができる.このように,それぞれの状態に,その状態で選択できる行動の数だけ評価値がある. このような状態に関連づけられている行動の評価値がどのように更新されるかを考える.それぞれの評価値をQ値と呼ぶ.Q値の更新式は という形で表される.TD学習では遷移した次の状態の評価値をみるが,Q-Learningではその状態について複数の行動に関連づけられた評価値を持つため,その中で最大のものをみる. 実際に状態遷移を繰り返

  • 1