【活性化関数】MishってSwishより精度良いの？ - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/minh33

2 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

NEXTAltair 実行速度の関係で拡散モデルのファインチューニングはReLUで十分だな

2022/10/28 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

【活性化関数】MishってSwishより精度良いの？ - Qiita

Mishの利点・少しマイナスの情報を保持することでDyingReLU減少が改善された。・Mishは飽和を避けてく... Mishの利点・少しマイナスの情報を保持することでDyingReLU減少が改善された。・Mishは飽和を避けてくれる。一般的にgradientが0に近いとtrainingのスピードが急激に遅くなる・マイナスに行く事は強い正規化の効果もある・ReLUのように特異点がない(連続である) Swish Familyを比べてみた Swishに似た活性化関数(Swish Family)を比較してみた。右図から分かるようにMishとxlog(1+tanh(e^x))がSwishよりやや精度が高い事が分かる。しかし、xlog(1+tanh(e^x))はoverfittingしやすく学習が不安定であった。よってMishが優秀な事が分かる。 Mishな一次微分を変形してみると(2)のようになる。 ∆(x) parameterは前処理のような振る舞いをする。それによって、正規化と勾配をsmoothに

AI

ブックマークしたユーザー

NEXTAltair2022/10/28
jp-myk2022/09/09

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx