"μTransfer: 学習したい大規模モデル(ターゲットモデル)と同じアーキテクチャの次元や層数のより小さいモデルを用意 + μP と呼ばれる方法でパラメータ付け / 学習率を任意に大きなモデルにそのまま使い回せる"

sh19910711sh19910711 のブックマーク 2024/05/23 07:08

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する|Tatsuya Shirakawa

    最近、友人から大規模モデルの学習を劇的に効率化しそうな下記の事実(μTransfer)を教えてもらい、こんなことが成り立つことに非常に驚くとともに、それを知らなかったことにちょっとしたショックを受けました。...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう