ORPO: Monolithic Preference Optimization without Reference Model

テクノロジーカテゴリーの変更を依頼記事元:

arxiv.org

2 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

ORPO: Monolithic Preference Optimization without Reference Model

While recent preference alignment algorithms for language models have demonstrated promising resu... While recent preference alignment algorithms for language models have demonstrated promising results, supervised fine-tuning (SFT) rem ains imperative for achieving successful convergence. In this paper, we study the crucial role of SFT within the context of preference alignment, em phasizing that a minor penalty for the disfavored generation style is sufficient for preference-aligned SFT. Building

ブックマークしたユーザー

dann2024/04/13
yuiseki2024/04/05

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx