RAdam: Adam の学習係数の分散を考えたOptimizerの論文紹介 - nykergoto’s blog

テクノロジーカテゴリーの変更を依頼記事元:

nykergoto.hatenablog.jp

37 usersがブックマークコメント

記事へのコメント3件

注目コメント
新着コメント

stealthinu RAdamの論文内容の解説。噛み砕いた解説になっているためこれならちょっとわかった気になれる。

2019/08/20 リンク

misshiki “「今までヒューリスティックに行っていた SGD 学習開始時の LR 調整を自動化できるような枠組みをつくったよ」ということ”

機械学習

2019/08/20 リンク

currypurin 論文読んだけれど雰囲気しかわからなかったので、わかるまで読みたい

2019/08/16 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

<iframe marginwidth="0" marginheight="0" src="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Fnykergoto.hatenablog.jp%2Fentry%2F2019%2F08%2F16%2FAdam_%25E3%2581%25AE%25E5%25AD%25A6%25E7%25BF%2592%25E4%25BF%2582%25E6%2595%25B0%25E3%2581%25AE%25E5%2588%2586%25E6%2595%25A3%25E3%2582%2592%25E8%2580%2583%25E3%2581%2588%25E3%2581%259F%25E8%25AB%2596%25E6%2596%2587_RAdam_%25E3%2582%2592%25E8%25AA%25AD%25E3%2582%2593%25E3%2581%25A0%25E3%2582%2588!" scrolling="no" frameborder="0" height="230" width="500"><div class="hatena-bookmark-detail-info"><a href="https://nykergoto.hatenablog.jp/entry/2019/08/16/Adam_%E3%81%AE%E5%AD%A6%E7%BF%92%E4%BF%82%E6%95%B0%E3%81%AE%E5%88%86%E6%95%A3%E3%82%92%E8%80%83%E3%81%88%E3%81%9F%E8%AB%96%E6%96%87_RAdam_%E3%82%92%E8%AA%AD%E3%82%93%E3%81%A0%E3%82%88!">RAdam: Adam の学習係数の分散を考えたOptimizerの論文紹介 - nykergoto’s blog</a><a href="https://b.hatena.ne.jp/entry/s/nykergoto.hatenablog.jp/entry/2019/08/16/Adam_%E3%81%AE%E5%AD%A6%E7%BF%92%E4%BF%82%E6%95%B0%E3%81%AE%E5%88%86%E6%95%A3%E3%82%92%E8%80%83%E3%81%88%E3%81%9F%E8%AB%96%E6%96%87_RAdam_%E3%82%92%E8%AA%AD%E3%82%93%E3%81%A0%E3%82%88!">はてなブックマーク - RAdam: Adam の学習係数の分散を考えたOptimizerの論文紹介 - nykergoto’s blog</a></div></iframe>

プレビュー

規約違反を報告

RAdam: Adam の学習係数の分散を考えたOptimizerの論文紹介 - nykergoto’s blog

表題の通り噂の最適化手法 RAdam の論文 On the Variance of the Adaptive Learning Rate and Beyond を... 表題の通り噂の最適化手法 RAdam の論文 On the Variance of the Adaptive Learning Rate and Beyond を読んだので, そのまとめです!! 概要一言でいうと「今までヒューリスティックに行っていた Adam 学習開始時の LR 調整を自動化できるような枠組みをつくったよ」ということになると思います. 考える問題この論文で, 考えていくのは機械学習のように多数のデータから成る目的関数を最小化するような問題です. 特にニューラルネットワークの学習では勾配法, 特に SGD (確率的勾配降下法) と呼ばれる方法を用いることが一般的です. SGD には様々な adaptive バリエーションがあります.この adaptive とは問題の特性を生かして, SGD を早くするような工夫を指しています. 一般的な形式一般的な adaptive