エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
llama.cppでHuggingFaceにあるモデルを自分で量子化して動かす方法
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
llama.cppでHuggingFaceにあるモデルを自分で量子化して動かす方法
はじめに 自作PCでローカルLLMを動かすために、llama.cppを用いて量子化したモデルを動かす手法がある。... はじめに 自作PCでローカルLLMを動かすために、llama.cppを用いて量子化したモデルを動かす手法がある。ほとんどのローカルLLMはTheBlokeが量子化して公開してくれているため、ダウンロードすれば簡単に動かすことができるが、一方で最新のモデルを検証したい場合や自前のモデルを量子化したい場合など、TheBlokeに無いモデルを動かしたい時がある。 今回、私は以下のXwin-LM/Xwin-Math-70B-V1.0を検証したくて、llama.cppを用いて自前で量子化を行いました。その手法をまとめておく。 ちなみに、このモデルは、数学問題に特化しているモデルで、既存の数学問題に特化したローカルLLMの中でベンチマーク上は最も優秀なモデルとされている。[1] 私の PC のスペック[2] i7 13700K 3090 24GB DDR5 128GB Docker環境の準備 私はVS