エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
リベンジ!!Transformerの代替えを目指す新機構:SanokaLayer - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
リベンジ!!Transformerの代替えを目指す新機構:SanokaLayer - Qiita
はじめに 私は今回、Transformerの性能を出来るだけ維持したまま計算量を減らしました。RTX2060-6GBモデ... はじめに 私は今回、Transformerの性能を出来るだけ維持したまま計算量を減らしました。RTX2060-6GBモデルで現実的な時間内で学習させることができるレベルになりました。 ぜひ読んでください! 本文 最初に数式っぽい物を載せときます。 数式 これがSanokaLayerです。 ※行列積は使いません。この式の配列同士の乗算は、同じ位置の要素で乗算をします。 $N(x) = 正規化関数$ $LinearBlock(x) = Linear(GELU(Linear(x)))$ $W_{q,k,v,o} = Linear(x)$ $AttentionBlock(q, k, v) = W_o(softmax(W_q(Q) W_k(K))W_v(V))$ $u_t = 入力$ $x_t = 潜在変数$ $y_t = 出力$ $h = AttentionBlock(N(u_{t-0}),N(x