タグ

ML(Machine Learning)に関するdeejayrokaのブックマーク (1)

  • 大規模言語モデルのための強化学習|npaka

    以下の記事が面白かったので、軽く要約しました。 ・Reinforcement Learning for Language Models 1. はじめに「ChatGPT」とそれに続く「大規模言語モデル」(LLM)のリリースに伴い、「RLHF」の重要性が議論されました。しかし、なぜ「強化学習」が「教師あり学習」よりも言語モデルの学習に適しているのか疑問に思いました。「教師あり学習」 (Instructionチューニング) で十分ではないでしょうか? 私は、ある程度納得のいく理論的な議論を思いつきました。そして、特にChatGPTのようなモデルには、強化学習のケースを支持するだけでなく、それを必要とする追加の論拠があることに気がつきました。この追加の議論は、OpenAIのJohn Schulmanによる講演の(前半部分で)綴られています。この投稿は、彼の主張をより多くの言葉で繰り返し、また、明確

    大規模言語モデルのための強化学習|npaka
    deejayroka
    deejayroka 2023/04/24
    “「強化学習」では否定的なフィードバックも可能である点です。正式な学習理論の観点から見ると、両者の間には大きな違いがあり、否定的フィードバックの方がはるかに強力です”
  • 1