“ルールベースの報酬 (RBR) を活用した新しい方法を開発し、適用しました。この方法は、人間による膨大なデータ収集なしで、モデルが安全に動作するように調整します。”

misshikimisshiki のブックマーク 2024/07/26 14:27

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう