AdaGradが学習率のスケジューリングを上手く調整してくれる理由 - 理論編 - - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/Quasi-quant2010

7 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

AdaGradが学習率のスケジューリングを上手く調整してくれる理由 - 理論編 - - Qiita

1. はじめに機械学習では、多くが目的関数(凸関数)を最適化する問題として定式化され、勾配・劣勾配を... 1. はじめに機械学習では、多くが目的関数(凸関数)を最適化する問題として定式化され、勾配・劣勾配をヒントとして逐次的に目的関数を下げていくわけです。その際、学習率のスケジューリングに頭を悩ませます。そこで、学習率のスケジューリングに関しAdaGrad[J.Duchi]と呼ばれる手法が有効である事が示されました。実装が容易という背景もあり、一気に広まりました。他にもAdaDelta, RMSProp, Adamなど有名で、Qiitaにも各種法を経験的に比較している投稿[1]があります。ですので、本投稿では実装の話がありません。理論を整理します。なぜ、AdaGradの性能が良いかへの答えは、標準的なSGDよりタイトなRegret上限バウンドを理論的導出したためとなります。以降で使用するAdaGradはComposite Mirror Descent \mathbf{x}_{t+1} =

ブックマークしたユーザー

hirokist2016/10/11
laughing2016/10/10
ohnabe2016/10/07
yukimori_7262016/10/06
fubar_foo2016/10/06

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx