[B! ML(Machine Learning)] deejayrokaのブックマーク

deejayroka id:deejayroka

ML(Machine Learning)に関するdeejayrokaのブックマーク (1)

大規模言語モデルのための強化学習｜npaka
以下の記事が面白かったので、軽く要約しました。・Reinforcement Learning for Language Models 1. はじめに「ChatGPT」とそれに続く「大規模言語モデル」(LLM)のリリースに伴い、「RLHF」の重要性が議論されました。しかし、なぜ「強化学習」が「教師あり学習」よりも言語モデルの学習に適しているのか疑問に思いました。「教師あり学習」 (Instructionチューニング) で十分ではないでしょうか？私は、ある程度納得のいく理論的な議論を思いつきました。そして、特にChatGPTのようなモデルには、強化学習のケースを支持するだけでなく、それを必要とする追加の論拠があることに気がつきました。この追加の議論は、OpenAIのJohn Schulmanによる講演の（前半部分で）綴られています。この投稿は、彼の主張をより多くの言葉で繰り返し、また、明確
deejayroka 2023/04/24
“「強化学習」では否定的なフィードバックも可能である点です。正式な学習理論の観点から見ると、両者の間には大きな違いがあり、否定的フィードバックの方がはるかに強力です”

学習

モデル

language

勉強

機械学習

強化学習

自然言語処理

machinelearning

ML(Machine Learning)

NLP
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx