CPUが得意なことをCPUにまかせて少ないVRAMでも大きめのLLMを速く動かす - きしだのHatena

テクノロジーカテゴリーの変更を依頼記事元:

nowokay.hatenablog.com

137users がブックマークコメント

コメント

6

記事へのコメント6件

注目コメント
新着コメント

khtokage どの処理部分をどのハードウェアに割り当てるか。3Dなんかでは長年掛けて最適化されてきたことだけど、AIもそういう時代だし、爆速で進むんでしょうね。

2025/05/13 リンク

qpci32siekqd CPU-GPU間、CPU-メモリ間、どこも通信帯域足りてないのでハードから変わらん限り厳しい気がする

2025/05/13 リンク

zgmf-x20a これは参考になる。ただ、そのレベルのコーディングするかというとしないけどね…その点でも、Apple M4とかevo-x2に望みが行くのか…

2025/05/13 リンク

yarumato “12%速くなりましたね。強いCPUならもっと効果が出ると思います。”

2025/05/13 リンク

Kukri まだまだ構造的な非効率は残ってるよな

2025/05/13 リンク

pascal256 良さそう。NPUとかも今後含まれて上手く協調するようになるのかな？

2025/05/13 リンク

qpci32siekqd CPU-GPU間、CPU-メモリ間、どこも通信帯域足りてないのでハードから変わらん限り厳しい気がする

2025/05/13 リンク

khtokage どの処理部分をどのハードウェアに割り当てるか。3Dなんかでは長年掛けて最適化されてきたことだけど、AIもそういう時代だし、爆速で進むんでしょうね。

2025/05/13 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

CPUが得意なことをCPUにまかせて少ないVRAMでも大きめのLLMを速く動かす - きしだのHatena

Redditに「VRAM足りないとき一部のレイヤーをCPUに任せるんではなく、レイヤー全部をGPUに載せてレイヤ... Redditに「VRAM足りないとき一部のレイヤーをCPUに任せるんではなく、レイヤー全部をGPUに載せてレイヤー内部のFFNだけCPUに持っていったら速くなった、なんでこれが標準じゃないんだ」というのがあったので、おうちのRTX 4060 Ti 16GBで試してみたら微妙に速くなりました。 https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7/dont_offload_gguf_layers_offload_tensors_200_gen/ Qwen3 30B A3Bで試してみるこういった指定がOllamaやLM Studioではできないので、今回はKoboldCPPというので試してます。 https://github.com/LostRuins/koboldcpp KoboldCPPでは実用が厳しいので、llama.cppで試すほう

ブックマークしたユーザー

heatman2025/06/12
knj29182025/05/23
einherjar2025/05/21
idk2025/05/20
quesit2025/05/19
lugecy2025/05/18
karkwind2025/05/16
latteru2025/05/15
midas365452025/05/14
e10kg2025/05/14
sora05132025/05/14
peltier2025/05/14
syuu2562025/05/13
osakana1102025/05/13
harumomo20062025/05/13
bython-chogo2025/05/13
Tiantian2025/05/13
aont2025/05/13

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx