最近、友人から大規模モデルの学習を劇的に効率化しそうな下記の事実(μTransfer)を教えてもらい、こんなことが成り立つことに非常に驚くとともに、それを知らなかったことにちょっとしたショックを受けました。 μTransfer 下記の手順で大規模モデル(Neural Networks)の最適なハイパーパラメータを効率的に獲得できる 1. 学習したい大規模モデル(ターゲットモデル)と同じアーキテクチャの次元や層数のより小さいモデルを用意し、それぞれのモデルのパラメータと最適化アルゴリズムを μP と呼ばれる方法でパラメータ付けする 2. その小さいモデルで、最適なハイパーパラメータ(学習率など)を探索する 3. ターゲットモデルに小さいモデルで獲得されたハイパーパラメータを適用する Greg Yang+, "Tensor Programs V: Tuning Large Neural Net
![μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する|Tatsuya Shirakawa](https://cdn-ak-scissors.b.st-hatena.com/image/square/40351364ff5b77f66c2f151393e881bd3624c3bd/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F132039700%2Frectangle_large_type_2_97861697c1aac79b846b70f0b561e546.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)