株式会社レトリバ[B!]新着記事・評価 - はてなブックマーク

『株式会社レトリバ｜note』

日本語LLMの推論速度検証｜株式会社レトリバ
6 users
note.com/retrieva

はじめにこんにちは。横浜国立大学大学院理工学府修士2年の藤井巧朗と申します。8月24日から9月29日の５週間、株式会社レトリバにインターンとして参加させていただきました。インターンでは日本語LLMの推論速度に関する検証を行いました。本記事では、インターンでの成果の一部を紹介します。想定する読者：自然言語処理に興味がある方自然言語処理を扱う会社のインターンに興味のある方 LLMの推論速度に関心のある方時間がない方向けまとめ：推論速度に関して、特に大規模なモデルではCPUよりもGPUの方が圧倒的に速い GPUで高速化したい場合vLLMかFasterTransformerを使うべき（モデルの大きさによる）特にバッチ処理をする場合はvLLMを使うべき本検証では量子化によるスループット向上は見られなかった 0. インターン参加の経緯私はもともと研究スキルやエンジニアリング力を高めた
- テクノロジー
- 2023/11/23 10:28
- あとで読む

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx