pascal256のブックマーク - はてなブックマーク

ブックマーク / zenn.dev/lixian (1)

Dense vs MoE推論モデルの実力比較
Gemma-4-26B-A4B（MoE）は活性パラメータこそ4BとGemma-4-E4Bと同じだが、**VRAMが3.2倍（48.1GB vs 14.9GB）**に膨らんでいる。これはMoE特有のルーティング機構やエキスパートのメモリオーバーヘッドによるものだ。精度もわずかに低く、パレート最適には遠い。一方、Qwen3-30B-A3Bは活性パラメータが3Bと最も少ないにもかかわらず、VRAMは57.6GBで全モデル中最大。低活性パラメータ＝低メモリ、という単純な等式は成立しない。結果②：タスクごとの強さに大きく偏るヒートマップが如実に示しているのは、**「全タスクで最強のモデルは存在しない」**という事実だ。 ARC-Challenge：Gemma MoEが支配。Gemma-4-26B-A4Bが0.960でトップ GSM8K：Gemma系が強い一方、Qwen3-30B-A3Bは0.0
pascal256 2026/04/14
リンク
1

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx