HF transformers と比べ24倍の高速化とな。 “vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention ”

secondlifesecondlife のブックマーク 2023/06/26 18:11

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention

    GitHub | Documentation | Paper LLMs promise to fundamentally change how we use AI across all industries. However, actually serving these models is challenging and can be surprisingly slow even on e...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう