「Dense モデル」「MoE モデル」「NIM のメモリ-オフロード」をまとめて整理｜川田　AI エヴァンジェリスト/AI大好きおじさん

テクノロジーカテゴリーの変更を依頼記事元:

note.com/aiojisan2024

1user がブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

「Dense モデル」「MoE モデル」「NIM のメモリ-オフロード」をまとめて整理｜川田　AI エヴァンジェリスト/AI大好きおじさん

なかなかVRAMの話が終わらなくてすみません。どうしてもクリアにしないと、ＬＬＭの性能や、足回りのＧ... なかなかVRAMの話が終わらなくてすみません。どうしてもクリアにしないと、ＬＬＭの性能や、足回りのＧＰＵやそのネットワークにいけないので、何度でも繰り返し調べて最後までまとめたいと思います。 1. そもそも何が違うの？2. 32 B クラスで数字を比べてみる 3. どっちを選ぶ？ざっくり判断フローレイテンシ最優先？ ⇒ Yes → Dense が安全。・本を出し入れしないので応答が安定。 GPU が足りない／同時ユーザが多い？ ⇒ Yes → MoE が有利。・1 GPU あたり処理件数が増える。 GPU は少し小さくても OK、でも遅延も抑えたい？ ⇒ NIM + オフロードで「使う所だけ机に出す」。 MoE でもエキスパート全員が毎回呼ばれそう？ ⇒ それなら Dense + 量子化（4 bit など）で VRAM を削る案も。 4. 覚えておくと楽な公式What GPU i

ブックマークしたユーザー

roogh5eeSha62025/05/03

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx