[B! RL] tuxedokatzeのブックマーク

tuxedokatze id:tuxedokatze

RLに関するtuxedokatzeのブックマーク (1)

言語生成の強化学習をやっていく（手法紹介 REINFORCE編） - Seitaro Shinagawaの雑記帳
この記事は強化学習苦手の会 Advent Calendar 2020の3日目の記事です。 2020.12.04 追記はじめにサーベイ論文の概要言語生成モデルのおさらい言語生成における強化学習（前提知識）エピソード報酬学習における立ち位置言語生成の強化学習壱ノ型「REINFORCE（方策勾配法による最適化）」 1エピソードで最適化するのか？ステップごとに最適化するのか？解釈？ REINFORCEの派生手法：Self-Critic (SC) models 免責事項：載せている式は論文からの引用ではなく、自分の理解で書いたものが含まれますので、サーベイ論文の紹介と言っても論文の内容をそのまま写しているわけではありません。気になるところがあれば原論文をご確認することを勧めます。 2020.12.04 追記 REINFORCEの式が間違ってたので修正しました。（誤）$\na
tuxedokatze 2020/12/03
RL

NLG
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx