エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
【活性化関数】MishってSwishより精度良いの? - Qiita
Mishの利点 ・少しマイナスの情報を保持することでDyingReLU減少が改善された。 ・Mishは飽和を避けてく... Mishの利点 ・少しマイナスの情報を保持することでDyingReLU減少が改善された。 ・Mishは飽和を避けてくれる。一般的にgradientが0に近いとtrainingのスピードが急激に遅くなる ・マイナスに行く事は強い正規化の効果もある ・ReLUのように特異点がない(連続である) Swish Familyを比べてみた Swishに似た活性化関数(Swish Family)を比較してみた。 右図から分かるようにMishとxlog(1+tanh(e^x))がSwishよりやや精度が高い事が分かる。しかし、xlog(1+tanh(e^x))はoverfittingしやすく学習が不安定であった。 よってMishが優秀な事が分かる。 Mishな一次微分を変形してみると(2)のようになる。 ∆(x) parameterは前処理のような振る舞いをする。それによって、正規化と勾配をsmoothに
2022/10/28 リンク