クロスエントロピー損失関数を使いSGDで学習した場合、訓練コストが0に近づいても学習し続けるとL2マージン最大化の解が得られ暗黙的な正則化効果で汎化する。訓練コストや検証コストが下げ止まっても学習をやめては

elu_18elu_18 のブックマーク 2017/11/06 20:39

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

The Implicit Bias of Gradient Descent on Separable Data

    We examine gradient descent on unregularized logistic regression problems, with homogeneous linear predictors on linearly separable datasets. We show the predictor converges to the direction of the...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう