最近、機械学習系のタスクから離れていて(ずっとRails書いてました...そろそろ機械学習界隈の世界に戻らんと...) まだAdamの論文読めてなかったので、読んで適当に実装してみました。 motivation 簡単に実装できて、計算効率が良くて、省メモリで、スケールの影響も受けにくくて、大規模なデータ/パラメタに対して適応的なモデルを作りたい Adamの名前の由来 Adaptive moment estimation Adamの利点 AdaGradとRMSPropの良い所を合わせ持った手法 AdaGradはsparse gradientに強い(が、一次モーメントのバイアス訂正項がないのでバイアスが非常に大きくなって、パラメタの更新が非常に大きくなる) RMSPropはオンラインで非定常な設定で強い(がバイアス訂正項が小さな値になるとstepsizeがバカでかくなる) 初期値を与える必要は
![Adam論文概要とコード - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/10d099605dda86dab7ef8c7c8d911bed0fae4beb/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZ0eHQ9QWRhbSVFOCVBQiU5NiVFNiU5NiU4NyVFNiVBNiU4MiVFOCVBNiU4MSVFMyU4MSVBOCVFMyU4MiVCMyVFMyU4MyVCQyVFMyU4MyU4OSZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1jbGlwPWVsbGlwc2lzJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9NTQzZWQ4MGIyNjVkZWVmNzNjMjgzNTVhNmJiMmMyNmI%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwc2hpbWFfeCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9OTc3YjA3MDkzZWVlOWExOGFlOWEzNmRjYTEzOTc1MzU%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D9ff0fda3140f5030ad2d736ec28243bb)