「llama.cpp」はMacBookなどでLlamaベースの大規模言語モデルを動かすことを目標とするアプリケーション。一応CPUのみでも実行でき、GPUの非力な環境でも動かしやすい。 llama.cppの量子化モデルllama.cpp(GGML)では量子化によるモデルサイズ縮小が進んでいる。例えば、下記のHuggingFaceのRepoを見ると、GGML量子化モデルは「q4_0, q4_1, q5_0, q5_1, q8_0, q2_K, q3_K_S, q3_K_M, q3_K_L, q4_K_S, q4_K_M, q5_K_S, q5_K_M, q6_K」と多岐にわたる。 Model cardに解説があるものの、専門的で素人にはサイズ以外の違いが分からない。もう少しやさしい説明がないか調べたところ、llama.cppの"quantize"コマンド内に整理されていると知ったので、和訳し