MoEのパラメータ数は「"トータルパラメータ数"-A"アクティブパラメータ数"」の形式に統一して記載した。 以下、要素を個別に解説。 活性化関数 モデルに非線形性を持たせるために使われる関数。 非線形性が重要な理由として例えば、線形層だけを繰り返しても、結局一つの線形層で記述できるという性質がある。 (直観的理解のため、線形層をバイアス項も無視して考えるとただ行列をかける処理で、行列AとBを続けて掛けるのと積の行列ABをかけることは変わらない。(xA)B = x(AB)) よって、線形層やConvolution層(これも線形演算)の後には基本的に通すことになる。(回帰モデルの最終出力や、Attention内部等、目的により例外もあり。) ReLU以降のものは入力に何をかけているかの観点で見ると理解しやすい。 現在はGLU系のものが主流。 ReLU 通常はmaxで記述されるが、「恒等関数×ス

