2024年5月8日のHPC研究会で使用したスライドです。 https://www.ipsj.or.jp/kenkyukai/event/hpc194.html
Llama系モデルのGPTQ量子化&推論に使用できるパッケージには、AutoGPTQの他に、GPTQ-for-LLaMaがある。 最近はAutoGPTQへの機能集約が進み、高速推論に関してもExllamaが登場したので、GPTQ-for-LLaMAはあまり利用されなくなっている。 ただ、量子化に関してはAutoGPTQよりGPTQ-for-LLaMAの方が手軽という噂を聞いたので、ちょっと試してみた。 ELYZA-japanese-Llama-2-7bで試すちょうど下記モデルがリリースされたので、試しにこちらをGPTQ化してみることにした(ELYZA-japanese-Llama-2-7b-instruct)。 量子化パラメータ量子化パラメータについては、HuggingFaceのGPTQConfigやTheBloke氏のGPTQのモデルカードに分かりやすい解説がある。 GPTQ-for-L
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く