記事へのコメント2

    • 注目コメント
    • 新着コメント
    misshiki
    “DeepSeek-R1 の強化学習アルゴリズムをできる限り詳細に、省略されやすい部分も含めて書いてみました。”

    その他
    hiroomi
    「精度・軽さ・安定性」を両立した強化学習ベースの学習設計が特徴

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    DeepSeek-R1の数理的背景を理解する - Techtouch Developers Blog

    はじめに 対象読者 DeepSeek-R1 の学習アルゴリズム 記号の準備 TRPO(Trust Region Policy Optimizatio...

    ブックマークしたユーザー

    • heatman2025/05/24 heatman
    • tasukuchan2025/04/27 tasukuchan
    • aont2025/04/26 aont
    • steel_eel2025/04/24 steel_eel
    • wktk_msum2025/04/24 wktk_msum
    • kuumon2025/04/24 kuumon
    • zu22025/04/24 zu2
    • ranto3811242025/04/24 ranto381124
    • stk1322025/04/24 stk132
    • Wacky2025/04/23 Wacky
    • akishin9992025/04/23 akishin999
    • r-west2025/04/23 r-west
    • yug12242025/04/23 yug1224
    • masayuki-as2025/04/23 masayuki-as
    • single_wing2025/04/23 single_wing
    • BlueSkyDetector2025/04/23 BlueSkyDetector
    • keijak2025/04/23 keijak
    • yuiseki2025/04/23 yuiseki
    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事

    いま人気の記事 - 企業メディア

    企業メディアをもっと読む