Reinforcement Learning for Language Models

テクノロジーカテゴリーの変更を依頼記事元:

gist.github.com/yoavg

19 usersがブックマークコメント

記事へのコメント2件

注目コメント
新着コメント

comb_8107 なぜ強化学習が教師あり学習より優れているか

2023/04/24 リンク

yamadar 教師あり学習は言語モデルに嘘をつかせる可能性がある。このためOpenAIはGPTモデルの強化学習型チューニング（RLHF）に多くの努力を投じており、モデルが答えを知らない場合に回答を避けることを促している。

2023/04/23 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

Reinforcement Learning for Language Models

rl-for-llms.md Reinforcement Learning for Language Models Yoav Goldberg, April 2023. Why RL? With... rl-for-llms.md Reinforcement Learning for Language Models Yoav Goldberg, April 2023. Why RL? With the release of the ChatGPT model and followup large language models (LLMs), there was a lot of discussion of the importance of "RLHF training", that is, "reinforcement learning from human feedback". I was puzzled for a while as to why RL (Reinforcement Learning) is better than learning from demonstrat