CLSmoothのブックマーク - はてなブックマーク

久々にOllamaを触ったら、量子化で別物になってた
本記事の構成についてこの記事は、AIを使用して構成の整理や下書きを支援してもらっています。しかし、内容は精査の上理解を表現しています。まずはじめに久々にOllamaのドキュメントを開いたら、見慣れない単語が目に入った。量子化（Quantization）以前にOllamaを触ったとき（前回の記事）は、gemma3を動かして「ローカルでLLMが動いた！」という体験がメインだった。当時のドキュメントには「7BモデルはRAM 8GB必要」「13BモデルはRAM 16GB必要」といった目安表があったはずだ。今回ドキュメントを見ると、その表が消えていた。代わりに量子化まわりの説明が増えていた。なぜ表が消えたのか。量子化とは何なのか。掘り下げていくとLLMの動作原理の話に繋がっていって面白かったので、そこから順番に書いていく。 LLMはなぜメモリを大量に食うのか GPT系のモデルはTr
CLSmooth 2026/03/06
リンク
1

はてなブックマーク