sh2のブックマーク / 2024年5月8日 - はてなブックマーク

テキスト生成APIサーバのスループットを高めるbatching algorithms

はじめにテキスト生成モデルをAPIサーバでホストする需要が増えてきている昨今ですが1サーバでできるだけ多くのリクエストをさばくためにはどうすればよいでしょうか？もちろん高速なツールを使うことも重要ですが、それだけでは限界があります。前回の記事ではいくつかのツールを比較しましたが、どのツールでもバッチサイズを上げることで単位時間あたりの処理能力を高めることができるということがわかりました。つまりAPIサーバ側でバッチサイズを大きくする工夫をすることでより多くのリクエストをさばくことが可能になります。今回の記事ではText Generation InferenceやvLLMなどが採用して注目を集めているContinuous batchingと呼ばれる手法について紹介します。名称や仕組みなどについてはこれらの解説を参考にしています。予備知識 Continuous batchingの説明に

はてなブックマーク

タグ

2024年5月8日のブックマーク (1件)

テキスト生成APIサーバのスループットを高めるbatching algorithms

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス