タグ

ブックマーク / zenn.dev/bilzard (1)

  • LLMの重みの量子化でパフォーマンスが改善する仕組みについて

    Abstract 記事では、重みの量子化でパフォーマンスが改善する仕組みについて、Rooflineという図を使って視覚的に説明する。前半ではパフォーマンスのボトルネックを可視化するRooflineという図の作図法と各領域の意味について説明する。後半ではRooflineを使ってなぜ重みの量子化がシステムのパフォーマンスを改善するのかについて、AWQの論文を例にして説明する。 なお、この記事でいうパフォーマンスとはシステムリソースの利用効率のことをさし、精度などのベンチマーク性能ではないことに注意。 Rooflineとは? Rooflineとは、計算機システムのボトルネックを視覚的に判断するための図であり、ボトルネックが以下のどちらにあるのかを判断することができる。 memory-bound / bandwidth-bound: データの転送で詰まってて、GPUは暇を持て余している状態。 c

    LLMの重みの量子化でパフォーマンスが改善する仕組みについて
  • 1