素晴らしい研究.パラメータ数が重要であり幅や深さは重要じゃない.lossが各変数のべき法則に従ってることを表すプロットに感心した. “The loss scales as a power-law with model size, dataset size, and the amount of compute used for training”
We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, ...
素晴らしい研究.パラメータ数が重要であり幅や深さは重要じゃない.lossが各変数のべき法則に従ってることを表すプロットに感心した. “The loss scales as a power-law with model size, dataset size, and the amount of compute used for training”
Ryobot のブックマーク 2020/04/24 19:30
このブックマークにはスターがありません。
最初のスターをつけてみよう!
Scaling Laws for Neural Language Models
arxiv.org2020/04/24
We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, ...
7 人がブックマーク・1 件のコメント
\ コメントが サクサク読める アプリです /