並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 1 件 / 1件

新着順 人気順

multithreadの検索結果1 - 1 件 / 1件

  • 巨大なLLMモデルをマルチGPUで動かす!~モデル分割方法による速度の違い~|AIサトシ

    Metaが405BのLLMをリリースし、オープンLLMにも巨大なモデルが増えてきました。 スケーリング則に従い、巨大になるほど精細になり、能力も増えます。 すべて巨大なモデルで推論処理を続けたいのですが、 巨大になった時、メモリに載らないことと、推論速度の面で現実的に動かすことが困難となっています。 コンシューマークラスのGPUのVRAMは最大24GB、 405Bモデルは、16bitでは、800GB以上、4bitでも200GBを軽く超えます。 システムのメモリを256GB 積めば、CPUで推論可能ですが、1秒で1token以下となり、文章出力に時間がかかりすぎて実用性がありません。 今回、マルチGPUでの推論速度に影響する因子を実際に調べてみました。 測定マシンは、以前作成したRTX4090 x 2の自作ワークステーションです コンシューマー構成で最強を目指した パーソナルLLM推論機の稼

      巨大なLLMモデルをマルチGPUで動かす!~モデル分割方法による速度の違い~|AIサトシ
    1