@pocokhcのマイページ[B!]新着記事・評価 - はてなブックマーク

『@pocokhcのマイページ - Qiita』

話題のDeepSeekで使われている強化学習GRPOを調べてみた - Qiita
4 users
qiita.com/pocokhc

はじめに話題のDeepSeekですが、技術的な観点だと強化学習手法の改善が大きいようで気になったので調べてみました。ただ参考のメンダコさんのブログが分かりやすくて… 記事にする必要あるか？と思ったけど途中まで作っていたのであげておきます。 GRPOを簡単に言うと、PPOからCriticをなくし、代わりにグループスコアからアドバンテージを推定する手法です。これによりCriticの学習がなくなり、大幅な学習時間の短縮を実現した内容となります。参考 (論文) DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (論文) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learn
- テクノロジー
- 2025/02/06 19:24

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx