[B! 機械学習][勾配爆発] shikimihuaweiのブックマーク

shikimihuawei id:shikimihuawei

機械学習と勾配爆発に関するshikimihuaweiのブックマーク (3)

DNNの基礎知識についてのまとめ - Deep Learning 脱初心者めざして
深層ニューラルネットの訓練今回は、深層ニューラルネットワーク(以下DNN)の問題点を挙げ、その解決法を示します。深層ニューラルネットの訓練勾配消失/爆発問題勾配消失勾配爆発 Xavierの初期値とHeの初期値活性化関数バッチ正規化勾配クリッピングプレトレーニング済み層の再利用転移学習 model zoo オプティマイザの高速化 Momentum最適化 NAG(Nesterov Accelerated Gradient) AdaGrad RMSProp Adam(adaptive momentum estimation) 学習スケジュール正則化による過学習の防止早期打ち切り l1, l2正則化ドロップアウトデータ拡張実践的なガイドライン勾配消失/爆発問題勾配消失勾配降下法による更新では下位層の接続の重みがほとんど変わらず、訓練が良い解に収束しなくなること
shikimihuawei 2020/03/06
勾配消失

Deep Learning

機械学習

勾配爆発

性化関数
リンク
勾配消失問題と勾配爆発問題～原因と解決策～ | マサムネの部屋
パラメーター\( W_0 , W_1 , W_2 \)に注目してみます。それぞれの行列の次元は、\( W_0 \)がデータ数×データ数 , \( W_1 \)が16×データ数 , [mathjax]\( W_2 \)が16×1 です。パラメーターが行列なので、勾配も行列で出てきます。\( L^2\)ノルムを使って勾配の大きさを評価しましょう。ベクトルや行列の[mathjax]\(L^2\) ノルムは以下の式で定義されます。 $$\begin{eqnarray} \| X \|_{L^2} =\sum_{i,j} x_{ij} ^2 \end{eqnarray}$$ 50回パラメーターの更新を行います。勾配はL2ノルムで評価し、パラメーターは行列の要素を一つ決めて、どのように更新されていくか調べます。 \( W_0\) が10回の更新を待たない間にほぼ定数になっています。一度落ち着いてか
shikimihuawei 2020/03/06
勾配消失

Deep Learning

機械学習

勾配爆発
リンク
ニューラルネットワークと深層学習
shikimihuawei 2020/03/06
勾配消失

Deep Learning

機械学習

勾配爆発
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx