以下の記事が面白かったので、簡単にまとめました。 ・GaLore: Advancing Large Model Training on Consumer-grade Hardware 1. GaLore「GaLore」は、「NVIDIA RTX 4090」などの家庭用GPU上で、Llamaなどの最大7Bパラメータを持つモデルの学習を容易にします。これは、学習プロセス中のオプティマイザの状態と勾配に従来関連付けられていたメモリ要件を大幅に削減することによって実現されます。 2. オプティマイザ状態でのメモリ効率オプティマイザ状態は、特にAdamのような適応最適化アルゴリズムでは、モデルの学習中のメモリフットプリントの重要な部分を占めます。「GaLore」は、オプティマイザによって処理される前に、勾配を低次元の部分空間に投影することでこの問題に対処します。これにより、これらの状態を保存するため
![GaLore - 家庭用ハードウェアでの大規模モデルの学習|npaka](https://cdn-ak-scissors.b.st-hatena.com/image/square/d85d9a675d26e0036a249eaf18164706607cc472/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F134694854%2Frectangle_large_type_2_57b440c863fdd54d44282b7a1d1bf852.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)