gradient accumulation stepsのバグを理解する

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/dalab

3users がブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

gradient accumulation stepsのバグを理解する

はじめにデータソリューション事業部の宮澤です。昨日Xにてポストされていた以下の記事を理解しようと... はじめにデータソリューション事業部の宮澤です。昨日Xにてポストされていた以下の記事を理解しようと思い、読んでみました。概要 GPUメモリ節約のためによく使われる gradient_accumulation_steps の挙動にバグがあったとのこと。unslothおよびtransf ormersのライブラリでは修正されたと報告されています。バグについて事象 unslothの記事を見ると、gradient accumulationを使用すると、フルバッチトレーニングを使用する場合よりも損失が大きくなったことが示されたとのことです。実際に以下の図を見ると、バッチサイズ*勾配累積=16で固定したときに、勾配累積が大きいほうが損失が大きくなっています。 https://unsloth.ai/blog/gradient より引用原因原因として、①累積ステップで数値エラーが発生している　②損

ブックマークしたユーザー

idk2024/11/12
yuiseki2024/10/27
sucrose2024/10/18

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx