stealthinuのブックマーク / 2024年4月8日

stealthinu id:stealthinu

2024年4月8日のブックマーク (2件)

μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する｜Tatsuya Shirakawa
最近、友人から大規模モデルの学習を劇的に効率化しそうな下記の事実（μTransfer）を教えてもらい、こんなことが成り立つことに非常に驚くとともに、それを知らなかったことにちょっとしたショックを受けました。 μTransfer 下記の手順で大規模モデル（Neural Networks）の最適なハイパーパラメータを効率的に獲得できる 1. 学習したい大規模モデル（ターゲットモデル）と同じアーキテクチャの次元や層数のより小さいモデルを用意し、それぞれのモデルのパラメータと最適化アルゴリズムを μP と呼ばれる方法でパラメータ付けする 2. その小さいモデルで、最適なハイパーパラメータ（学習率など）を探索する 3. ターゲットモデルに小さいモデルで獲得されたハイパーパラメータを適用する Greg Yang+, "Tensor Programs V: Tuning Large Neural Net
stealthinu 2024/04/08
小さいモデルで探索したハイパーパラメータをそのまま大きなモデルに転用できるという手法。そのための条件を数学的に決めれると。すごい頭の良さ。

deeplearning
リンク
GitHub - facebookresearch/schedule_free: Schedule-Free Optimization in PyTorch
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
stealthinu 2024/04/08
学習率のスケジュールによる最適化不要な手法。とりあえずSGDとAdamの実装。

deeplearning
リンク
- 2024年4月9日
- 2024年4月8日
- 2024年4月6日