qiita.com[B!]新着記事・評価 - はてなブックマーク

『qiita.com』

Flash AttentionとDeep Speedを使ってLLMをGPU1枚でフルファインチューニングする - Qiita
3 users
qiita.com/jovyan

TL;DR Deep Speedのoffload_optimizer機能を使って、VRAM40GBのGPU1枚で3.6BパラメータのLLMをファインチューニングしました。さらに、Flash Attentionを使うことで、学習を高速化しつつ使用メモリ量も減らし、より長い系列長で学習を行うことができました。はじめに Flash AttentionはAttentionの計算で使用するGPUメモリ量を系列長の2乗のオーダーから1乗に削減する技術で、xformersやoptimum、さらにはtransformersライブラリでも簡単に使用できるようになってきています。前回の記事(1, 2)では、LLMの推論においてFlash Attentionを使ってみたのですが、推論ではあまり効果が見られないという結論を得ました。今回はFlash Attentionが本領を発揮するであろう学習（ファイン
- テクノロジー
- 2024/03/31 12:27

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx