論文紹介 画像引用 https://openreview.net/pdf?id=Bkg3g2R9FX https://github.com/Luolc/AdaBound https://www.luolc.com/publications/adabound/ AdaBoundとAMSBound Adamに学習率の上限と下限を動的に加えたものをAdaBound AMSGradに学習率の上限と下限を動的に加えたものをAMSBound どちらの手法も最初はAdamのように動き、後半からSGDのように動く Adamの良さである初期の学習の速さとSGDの良さである汎化能力を両立した最適化手法 Adamの問題点 SGDと比べて汎化性能が劣る・未知のデータに弱い 不安定で極端な学習率を使うため上手く収束しない AMSGrad こういったAdamの問題を解決しようとしてできたのがAMSGrad http:
![[最新論文] 新しい最適化手法誕生! AdaBound & AMSBound - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/3d5babb1949af1973fd60a5d4f6f78c303cabee6/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JTVCJUU2JTlDJTgwJUU2JTk2JUIwJUU4JUFCJTk2JUU2JTk2JTg3JTVEJTIwJUU2JTk2JUIwJUUzJTgxJTk3JUUzJTgxJTg0JUU2JTlDJTgwJUU5JTgxJUE5JUU1JThDJTk2JUU2JTg5JThCJUU2JUIzJTk1JUU4JUFBJTk1JUU3JTk0JTlGJTIxJTIwQWRhQm91bmQlMjAlMjYlMjBBTVNCb3VuZCZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnM9MmE3OWMxYjM4Yzg3OGU4ZmE3MjM1N2I0MTU1MzY4YTA%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBQaG9lYm9vb28mdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTliMjZmYzAzZWI0ZTc0ZTA3MmEzM2FmMTg3ZTAwOTBk%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3Deae8bea44568b510af3e4add05acf0e4)