devorgachemのブックマーク / 2026年1月3日

LLMのための強化学習手法 2025 -PPO・DPO・GRPO・DAPO一気に理解する-｜olachinkei

69 users
note.com/olachin
テクノロジー

AI Solution EngineerをやっているKeisuke Kamata (X: olachinkei) です。LLMのための強化学習手法を一気に理解する記事を書きました！構成を書きながら「万里の長城よりなげーよ」と思ったのですが、一気に理解するのも悪くないと考え、詰め込みました。お好きなペースで読んでください。なぜ今、LLMの強化学習なのかLLMの学習プロセスは、事前学習と事後学習の2段階に分かれます。事前学習で言語能力の土台を作り、事後学習でユーザーにとって有用な振る舞いを身につける。2022年のChatGPT以降、この事後学習において強化学習（RL）が重要な役割を果たすようになりました。 Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AIより参照まず最初に注目するべき

LLMのための強化学習手法 2025 -PPO・DPO・GRPO・DAPO一気に理解する-｜olachinkei

はてなブックマーク

タグ

2026年1月3日のブックマーク (1件)

LLMのための強化学習手法 2025 -PPO・DPO・GRPO・DAPO一気に理解する-｜olachinkei

お知らせ

今週のはてなブックマーク数ランキング（2026年5月第1週）

月間はてなブックマーク数ランキング（2026年4月）

今週のはてなブックマーク数ランキング（2026年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス