“FlexGen は、LLM 推論のリソース要件を 1 つのコモディティ GPU (T4、3090 など) にまで下げ、さまざまなハードウェア セットアップの柔軟な展開を可能にすることを目的としています。”

misshikimisshiki のブックマーク 2023/02/21 14:34

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

GitHub - FMInference/FlexGen: Running large language models on a single GPU for throughput-oriented scenarios.

    In recent years, large language models (LLMs) have shown great performance across a wide range of tasks. Increasingly, LLMs have been applied not only to interactive applications (such as chat), bu...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう