エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
LLM推論にGPUは1つでいい?FlexGenについてまとめてみた - Platinum Data Blog by BrainPad ブレインパッド
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
LLM推論にGPUは1つでいい?FlexGenについてまとめてみた - Platinum Data Blog by BrainPad ブレインパッド
本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 こ... 本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。 今回は、LLMをお手元のPCで扱ってみたい方々に知っていただきたい、2023年2月にリリースされたLLMの処理を行うための生成エンジン「FlexGen」を解説します。 FlexGenとは FlexGenのメカニズム 1. GPU、CPUメモリ、そしてディスクを利用した分散処理 (オフローディング) 2. LLMの重み、キー、バリューを4ビット整数に圧縮する処理 (量子化) 3. 従来の処理手法と異なるジグザグ処理 FlexGenと他生成エンジンのベンチマーク比較 まと