エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント2件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
DeepSeek-R1の数理的背景を理解する - Techtouch Developers Blog
はじめに 対象読者 DeepSeek-R1 の学習アルゴリズム 記号の準備 TRPO(Trust Region Policy Optimizatio... はじめに 対象読者 DeepSeek-R1 の学習アルゴリズム 記号の準備 TRPO(Trust Region Policy Optimization) 補題1 補題1の証明 定理1 PPO(Proximal policy optimization algorithms) GRPO(Group Relative Policy Optimization) 不偏推定量(5)の導出 DeepSeek-R1 における GRPO の適用方法 正確さの報酬(Accuracy rewards) フォーマットの報酬(Format rewards) まとめ はじめに こんにちは!ML エンジニアの tsujiyan です。現在 DAP Lab とよばれるチームに配属しており、生成 AI 技術を使ったプロダクト開発に従事しています。 近年、生成AIの急速な発展に伴い、大規模言語モデル(LLM)は自然言語処理の
2025/04/23 リンク