タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

RLに関するtuxedokatzeのブックマーク (1)

  • 言語生成の強化学習をやっていく(手法紹介 REINFORCE編) - Seitaro Shinagawaの雑記帳

    この記事は強化学習苦手の会 Advent Calendar 2020の3日目の記事です。 2020.12.04 追記 はじめに サーベイ論文の概要 言語生成モデルのおさらい 言語生成における強化学習 (前提知識) エピソード 報酬 学習における立ち位置 言語生成の強化学習 壱ノ型 「REINFORCE(方策勾配法による最適化)」 1エピソードで最適化するのか?ステップごとに最適化するのか? 解釈? REINFORCEの派生手法:Self-Critic (SC) models 免責事項:載せている式は論文からの引用ではなく、自分の理解で書いたものが含まれますので、サーベイ論文の紹介と言っても論文の内容をそのまま写しているわけではありません。気になるところがあれば原論文をご確認することを勧めます。 2020.12.04 追記 REINFORCEの式が間違ってたので修正しました。 (誤)$\na

    言語生成の強化学習をやっていく(手法紹介 REINFORCE編) - Seitaro Shinagawaの雑記帳
  • 1