2018年1月2日のブックマーク (2件)

  • Boosting the Actor with Dual Critic

    This paper proposes a new actor-critic-style algorithm called Dual Actor-Critic or Dual-AC. It is derived in a principled way from the Lagrangian dual form of the Bellman optimality equation, which can be viewed as a two-player game between the actor and a critic-like function, which is named as dual critic. Compared to its actor-critic relatives, Dual-AC has the desired property that the actor an

    elu_18
    elu_18 2018/01/02
    強化学習におけるベルマン最適方程式を線形計画問題に変換して、その双対問題を効率的に解くアルゴリズム(Dual Actor-Critic)が提案された。 行動を選ぶ Actor と状態を評価する Dual-Critic は、価値関数がベルマン方程式を満
  • 西尾泰和のScrapbox

    favicon / nishio / これは何? / 読者向けLinks / Talk to the City勉強会 / 週記2024-06-17~ / 日記2024-06-21 / レースの時代・ゲームの時代 / リベロ / 人気投票の禁止 / 日記2024-06-20 / 沈黙の共犯者 / 戦友のメタファー / 受信者だけ不可視なのはおかしい / オンライン投票はなぜ『難しい』のか / 領土を

    西尾泰和のScrapbox
    elu_18
    elu_18 2018/01/02
    西尾泰和さんの Scrapbox すごい。読み応えがある/ https://t.co/c7C88XeShM