教師あり学習は言語モデルに嘘をつかせる可能性がある。このためOpenAIはGPTモデルの強化学習型チューニング(RLHF)に多くの努力を投じており、モデルが答えを知らない場合に回答を避けることを促している。

yamadaryamadar のブックマーク 2023/04/23 23:55

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

Reinforcement Learning for Language Models

    rl-for-llms.md Reinforcement Learning for Language Models Yoav Goldberg, April 2023. Why RL? With the release of the ChatGPT model and followup large language models (LLMs), there was a lot of disc...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう