検証内容 llama.cppのGGUFフォーマットについて量子化サイズ、手法での精度の変化を確認する 変換、量子化にはb3369のReleaseを使用 変換するモデルはtokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1 評価対象は次の84種類 Model CardのUsageに沿ってvllmで実行したfloat32(そのままをoriginal、system promptに日本語で回答する指示を加えたものをoriginal_ja) safetensors -> GGUFに変換したF32とF16のGGUF Q8_0からQ2_Kまでのimatrixを必要としない14種類の量子化GGUF Q6_KからIQ1_Sまでのimatrixを使用できるor必要とする22種類の量子化GGUF (4についてはimatrix作成のためのデータを3種類用意しそれぞれに22種