yuisekiのブックマーク - はてなブックマーク

日本語LLMの推論速度検証｜株式会社レトリバ
はじめにこんにちは。横浜国立大学大学院理工学府修士2年の藤井巧朗と申します。8月24日から9月29日の５週間、株式会社レトリバにインターンとして参加させていただきました。インターンでは日本語LLMの推論速度に関する検証を行いました。本記事では、インターンでの成果の一部を紹介します。想定する読者：自然言語処理に興味がある方自然言語処理を扱う会社のインターンに興味のある方 LLMの推論速度に関心のある方時間がない方向けまとめ：推論速度に関して、特に大規模なモデルではCPUよりもGPUの方が圧倒的に速い GPUで高速化したい場合vLLMかFasterTransf ormerを使うべき（モデルの大きさによる）特にバッチ処理をする場合はvLLMを使うべき本検証では量子化によるスループット向上は見られなかった 0. インターン参加の経緯私はもともと研究スキルやエンジニアリング力を高めた
yuiseki 2023/11/23
あとで読む
リンク
1

はてなブックマーク