「Databricks」を検索 - はてなブックマーク

Databricksの検索結果1 - 1 件 / 1件

GGUFって結局どのサイズ選んだらいいの？？

6 users
zenn.dev/yuki127
テクノロジー
2024/08/03

検証内容 llama.cppのGGUFフォーマットについて量子化サイズ、手法での精度の変化を確認する変換、量子化にはb3369のReleaseを使用変換するモデルはtokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1 評価対象は次の84種類 Model CardのUsageに沿ってvllmで実行したfloat32(そのままをoriginal、system promptに日本語で回答する指示を加えたものをoriginal_ja) safetensors -> GGUFに変換したF32とF16のGGUF Q8_0からQ2_Kまでのimatrixを必要としない14種類の量子化GGUF Q6_KからIQ1_Sまでのimatrixを使用できるor必要とする22種類の量子化GGUF (4についてはimatrix作成のためのデータを3種類用意しそれぞれに22種