エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
日本語LLMの推論速度検証 - Retrieva TECH BLOG
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
日本語LLMの推論速度検証 - Retrieva TECH BLOG
はじめに こんにちは。横浜国立大学大学院 理工学府 修士2年の藤井巧朗と申します。8月24日から9月29日... はじめに こんにちは。横浜国立大学大学院 理工学府 修士2年の藤井巧朗と申します。8月24日から9月29日の5週間、株式会社レトリバにインターンとして参加させていただきました。インターンでは日本語LLMの推論速度に関する検証を行いました。本記事では、インターンでの成果の一部を紹介します。 想定する読者: 自然言語処理に興味がある方 自然言語処理を扱う会社のインターンに興味のある方 LLMの推論速度に関心のある方 時間がない方向けまとめ: 推論速度に関して、特に大規模なモデルではCPUよりもGPUの方が圧倒的に速い GPUで高速化したい場合vLLMかFasterTransformerを使うべき(モデルの大きさによる) 特にバッチ処理をする場合はvLLMを使うべき 本検証では量子化によるスループット向上は見られなかった はじめに 0. インターン参加の経緯 1. 背景:大規模言語モデルの高速化