サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
衆院選
zenn.dev/zaburo_ch
導入 Twitter でこんな投稿を見かけました。 「Phi-2 ベースのモデルをいくつか使って Mixture of Experts (MoE) を作ったら単体よりも良い性能が達成できました」という話です。学習済み LLM をマージするテクに関しては最近時々話題に上がっているのを見かけますが、MoE には Gating 部分で追加のパラメータが必要なはずで、そこはどうやっているんだろうと気になりました。中身を見てみたところ、Few-shot で Gating のパラメータを決める手法が使われていて面白かったので、それについて書いてみます。 Sparse Mixture of Experts (Sparse MoE) の推論時の処理 Phixtral は名前やワードアートからも分かる通り、Mixtral の Sparse MoE を踏襲しているので、まずその推論時の処理について書きます。
このページを最初にブックマークしてみませんか?
『zenn.dev』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く