タグ

ブックマーク / zenn.dev/lixian (1)

  • Dense vs MoE推論モデルの実力比較

    Gemma-4-26B-A4B(MoE)は活性パラメータこそ4BとGemma-4-E4Bと同じだが、**VRAMが3.2倍(48.1GB vs 14.9GB)**に膨らんでいる。これはMoE特有のルーティング機構やエキスパートのメモリオーバーヘッドによるものだ。精度もわずかに低く、パレート最適には遠い。 一方、Qwen3-30B-A3Bは活性パラメータが3Bと最も少ないにもかかわらず、VRAMは57.6GBで全モデル中最大。低活性パラメータ=低メモリ、という単純な等式は成立しない。 結果②:タスクごとの強さに大きく偏る ヒートマップが如実に示しているのは、**「全タスクで最強のモデルは存在しない」**という事実だ。 ARC-Challenge:Gemma MoEが支配。Gemma-4-26B-A4Bが0.960でトップ GSM8K:Gemma系が強い一方、Qwen3-30B-A3Bは0.0

    Dense vs MoE推論モデルの実力比較
    pascal256
    pascal256 2026/04/14
  • 1