大規模言語モデルを利用する際には、モデルそのものだけでなく、モデルを扱うためのライブラリが必要になってきます。多くの場合Transformersというライブラリが使用されていますが、「PagedAttention」という仕組みを導入した新たなライブラリ「vLLM」を利用することでスループットを最大24倍に向上できることが大規模言語モデルの研究チームによって発表されました。 vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention https://vllm.ai/ 大規模言語モデルを操作するためのライブラリにはHugging FaceのTransformers(HF)や実稼働環境向けのText Generation Inference(TGI)が存在しています。今回登場したvLLMはこの一角に加わった形。 以下の図は、NVIDIA