タグ

2021年2月26日のブックマーク (2件)

  • 活性化関数Geluに関して - Qiita

    Geluは以上のように定義されます。 ここで$\Phi (x)$は正規分布(ガウス分布)の累積分布関数です。$erf()$は誤差関数です。 これが理想的な関数ですが一般に誤差関数は初等関数で計算できないので近似が行われます。 このGelu、およびGeluの近似をプロットしてみて、relu関数との差分を考えてみます。 ここでGelu idealとGelu approximate 1は大体等しいです。 一方、Gelu approximate 2はGelu idealと若干誤差があることが分かります。 ここで$\beta = 1.702$のSwish関数はGelu approximate 2と等価であることが分かります。 従ってGeluが有利である理由を掴めれば、それがSwishが有利な理由になります。 なお、この論文中ではβ=1のSwish関数はSiLUと呼称しています。 ただし$\beta

    活性化関数Geluに関して - Qiita
  • [活性化関数]Mish関数(ミッシュ関数)とは?

    用語「Mish関数」について説明。「0」を基点として、入力値が0以下なら出力値は「ほぼ0」だが(わずかに「負の値」になる)、0より上なら「入力値とほぼ同じ値」を返す、ニューラルネットワークの活性化関数を指す。類似するReLUやSwish関数の代替として使われる。 連載目次 用語解説 AI機械学習のニューラルネットワークにおけるMish関数(ミッシュ関数)とは、関数への入力値が0以下の場合には出力値がほぼ0(※わずかに負の値になり、最小値は約-0.31)、入力値が0より上の場合には出力値が入力値とほぼ同じ値(最大値は∞)となる関数である。 図1を見ると分かるように、ReLUという活性化関数に似ている曲線を描く(=ReLUをMish関数に置き換えやすい)が、その曲線が連続的で滑らか(smooth)かつ非単調(non-monotonic)である点が異なる。基点として(0, 0)を通るが、滑らか

    [活性化関数]Mish関数(ミッシュ関数)とは?