本記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。 本論文で使われている技術に関しては、ある程度の知識を持っているので、大きくは外していないとは思いますが、私の主観も入っている部分もありますので、ご了承ください。 また、DeepSeek-R1の論文が公開される前に、小型モデルに対して同様の実験(強化学習)をしていたグループがあるようです。 そちらのレポートは下記になります。 意図せず、DeepSeek-R1-Zeroの再現実験のようなレポートになっていますが、レポートの著者はDeepSeek-R1論文の公開前から実験していると主張しています。 こちらも非常に興味深かったため紹介です。 本論文の興味深いところ 本論文は、大きく分けて3つの構成でできています 強化学習による思考能力の強化 LLM(DeepSeek-V3-Base)に対
![DeepSeek-R1の論文読んだ?【勉強になるよ】](https://cdn-ak-scissors.b.st-hatena.com/image/square/65f0384458e4d81a52c2454368ff3167dd85fa32/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--gZ1B0I49--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3ADeepSeek-R1%2525E3%252581%2525AE%2525E8%2525AB%252596%2525E6%252596%252587%2525E8%2525AA%2525AD%2525E3%252582%252593%2525E3%252581%2525A0%2525EF%2525BC%25259F%2525E3%252580%252590%2525E5%25258B%252589%2525E5%2525BC%2525B7%2525E3%252581%2525AB%2525E3%252581%2525AA%2525E3%252582%25258B%2525E3%252582%252588%2525E3%252580%252591%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3Aasap%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyL2VhYjVhYTQ1MTkuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)