Kohei Ozaki[B!]新着記事・評価 - はてなブックマーク

『Kohei Ozaki (smly) | ho.lc』

Packing with Flash Attention で効率的に LLM のファインチューニングをする | ho.lc
7 users
ho.lc

LLM のファインチューニングにおいて入力トークン列の packing と Attention 計算の効率化は、長いトークン列を扱う際に特に重要です。この記事では、長さの異なる入力トークン列を packing によってコンパクトにまとめて、追加の変換処理を行うことなく、Flash Attention のオリジナルの論文実装である flash-attn パッケージにある varlen (variable-length) interface である flash_attn_varlen_func 関数にシームレスにつなげて Attention 計算する実装を紹介します。本記事の要点は以下のとおりです： Padding vs Packing LLM の訓練時において、ミニバッチ内の入力トークン列の padding は、長さが異なる複数のトークン列をまとめて扱うための一般的な手法です。しかし、pa
- テクノロジー
- 2025/02/10 00:03
- あとで読む

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx