Metaが405BのLLMをリリースし、オープンLLMにも巨大なモデルが増えてきました。 スケーリング則に従い、巨大になるほど精細になり、能力も増えます。 すべて巨大なモデルで推論処理を続けたいのですが、 巨大になった時、メモリに載らないことと、推論速度の面で現実的に動かすことが困難となっています。 コンシューマークラスのGPUのVRAMは最大24GB、 405Bモデルは、16bitでは、800GB以上、4bitでも200GBを軽く超えます。 システムのメモリを256GB 積めば、CPUで推論可能ですが、1秒で1token以下となり、文章出力に時間がかかりすぎて実用性がありません。 今回、マルチGPUでの推論速度に影響する因子を実際に調べてみました。 測定マシンは、以前作成したRTX4090 x 2の自作ワークステーションです コンシューマー構成で最強を目指した パーソナルLLM推論機の稼