エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
アニメーションでDeepSpeed (ZeRO1)の仕組みを完全に理解する
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
アニメーションでDeepSpeed (ZeRO1)の仕組みを完全に理解する
Turingのリサーチチームで完全自動運転の研究開発を行なっている棚橋です。Turingアドベントカレンダー1... Turingのリサーチチームで完全自動運転の研究開発を行なっている棚橋です。Turingアドベントカレンダー14日目の記事として、DeepSpeedについて取り上げます。 DeepSpeedはMicrosoftによって開発されたライブラリで、一言で言うと、「1つのGPUに乗り切らないような巨大MLモデルをなんとか学習させるため」のツールです。特に、この論文で提案されているDeepSpeedのZero Redundancy Optimizer (ZeRO)という技術が非常に注目されています。 また、DeepSpeedが昨今の大規模言語モデルの学習に多く利用されています。詳細は過去の記事をご覧ください。 DeepSpeedのライブラリ自体が簡単に利用できる反面、内部でどのように動作しているのかまで理解する機会はなかなかありません。しかし、効率的に動作させるためのチューニングを行ったり、発展的な