本記事の構成について この記事は、AIを使用して構成の整理や下書きを支援してもらっています。 しかし、内容は精査の上理解を表現しています。 まずはじめに 久々にOllamaのドキュメントを開いたら、見慣れない単語が目に入った。 量子化(Quantization) 以前にOllamaを触ったとき(前回の記事)は、gemma3を動かして「ローカルでLLMが動いた!」という体験がメインだった。 当時のドキュメントには「7BモデルはRAM 8GB必要」「13BモデルはRAM 16GB必要」といった目安表があったはずだ。 今回ドキュメントを見ると、その表が消えていた。代わりに量子化まわりの説明が増えていた。 なぜ表が消えたのか。量子化とは何なのか。掘り下げていくとLLMの動作原理の話に繋がっていって面白かったので、そこから順番に書いていく。 LLMはなぜメモリを大量に食うのか GPT系のモデルはTr

