公式ブログ。2024年8月なのでちょっと古め。 Dia によるまとめ。 LLM Compressorは、vLLM向けにモデルを圧縮して推論を速くする統合ツールだよ。 ウチ的にまとめると、これマジで「重いモデルをキュッと軽くして、GPUの速いコアでぶん回す」ための新ツールだし、実運用のレイテンシとかスループットをガチで改善するやつ。テンション上がる〜✨ まずはキーアイデア LLM Compressorは、量子化やスパース化みたいな「モデル圧縮」のベストプラクティスをひとつのライブラリに集約。GPTQ・SmoothQuant・SparseGPT・RTNとかをHugging Faceモデルに対してサクッと適用できて、出力されたチェックポイントをvLLMがネイティブに読んで高速推論できるのがポイントだもん。 重さを減らすだけじゃなく、GPUのINT8/FP8の速いテンソルコアを使える形に「アクティ

