タグ

ブックマーク / note.com/retrieva (1)

  • 日本語LLMの推論速度検証|株式会社レトリバ

    はじめにこんにちは。横浜国立大学大学院 理工学府 修士2年の藤井巧朗と申します。8月24日から9月29日の5週間、株式会社レトリバにインターンとして参加させていただきました。インターンでは日語LLMの推論速度に関する検証を行いました。記事では、インターンでの成果の一部を紹介します。 想定する読者: 自然言語処理に興味がある方 自然言語処理を扱う会社のインターンに興味のある方 LLMの推論速度に関心のある方 時間がない方向けまとめ: 推論速度に関して、特に大規模なモデルではCPUよりもGPUの方が圧倒的に速い GPUで高速化したい場合vLLMかFasterTransformerを使うべき(モデルの大きさによる) 特にバッチ処理をする場合はvLLMを使うべき 検証では量子化によるスループット向上は見られなかった 0. インターン参加の経緯私はもともと研究スキルやエンジニアリング力を高めた

    日本語LLMの推論速度検証|株式会社レトリバ
  • 1