エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
gradient accumulation stepsのバグを理解する
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
gradient accumulation stepsのバグを理解する
はじめに データソリューション事業部の宮澤です。 昨日Xにてポストされていた以下の記事を理解しようと... はじめに データソリューション事業部の宮澤です。 昨日Xにてポストされていた以下の記事を理解しようと思い、読んでみました。 概要 GPUメモリ節約のためによく使われる gradient_accumulation_steps の挙動にバグがあったとのこと。unslothおよびtransformersのライブラリでは修正されたと報告されています。 バグについて 事象 unslothの記事を見ると、gradient accumulationを使用すると、フルバッチトレーニングを使用する場合よりも損失が大きくなったことが示されたとのことです。実際に以下の図を見ると、バッチサイズ*勾配累積=16で固定したときに、勾配累積が大きいほうが損失が大きくなっています。 https://unsloth.ai/blog/gradient より引用 原因 原因として、①累積ステップで数値エラーが発生している ②損

