エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
「Dense モデル」「MoE モデル」「NIM のメモリ-オフロード」をまとめて整理|川田 AI エヴァンジェリスト/AI大好きおじさん
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
「Dense モデル」「MoE モデル」「NIM のメモリ-オフロード」をまとめて整理|川田 AI エヴァンジェリスト/AI大好きおじさん
なかなかVRAMの話が終わらなくてすみません。 どうしてもクリアにしないと、LLMの性能や、足回りのG... なかなかVRAMの話が終わらなくてすみません。 どうしてもクリアにしないと、LLMの性能や、足回りのGPUやそのネットワークにいけないので、何度でも繰り返し調べて最後までまとめたいと思います。 1. そもそも何が違うの?2. 32 B クラスで数字を比べてみる 3. どっちを選ぶ? ざっくり判断フローレイテンシ最優先? ⇒ Yes → Dense が安全。 ・本を出し入れしないので応答が安定。 GPU が足りない/同時ユーザが多い? ⇒ Yes → MoE が有利。 ・1 GPU あたり処理件数が増える。 GPU は少し小さくても OK、でも遅延も抑えたい? ⇒ NIM + オフロード で「使う所だけ机に出す」。 MoE でもエキスパート全員が毎回呼ばれそう? ⇒ それなら Dense + 量子化(4 bit など)で VRAM を削る案も。 4. 覚えておくと楽な公式What GPU i