タグ

2024年5月8日のブックマーク (1件)

  • テキスト生成APIサーバのスループットを高めるbatching algorithms

    はじめに テキスト生成モデルをAPIサーバでホストする需要が増えてきている昨今ですが1サーバでできるだけ多くのリクエストをさばくためにはどうすればよいでしょうか?もちろん高速なツールを使うことも重要ですが、それだけでは限界があります。前回の記事ではいくつかのツールを比較しましたが、どのツールでもバッチサイズを上げることで単位時間あたりの処理能力を高めることができるということがわかりました。つまりAPIサーバ側でバッチサイズを大きくする工夫をすることでより多くのリクエストをさばくことが可能になります。 今回の記事ではText Generation InferenceやvLLMなどが採用して注目を集めているContinuous batchingと呼ばれる手法について紹介します。 名称や仕組みなどについてはこれらの解説を参考にしています。 予備知識 Continuous batchingの説明に

    テキスト生成APIサーバのスループットを高めるbatching algorithms
    sh2
    sh2 2024/05/08
    社内用の推論サーバーを作りたくて、この記事と前後の記事を確認する