エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
大規模言語モデルの設計について、scaling lawやアンサンブルをキーワードに考える勉強メモ|Kan Hatakeyama
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
大規模言語モデルの設計について、scaling lawやアンサンブルをキーワードに考える勉強メモ|Kan Hatakeyama
はじめに大規模言語モデルを作ろうと思った時に、どういう選択肢があるか、特徴や課題について調べたメモ... はじめに大規模言語モデルを作ろうと思った時に、どういう選択肢があるか、特徴や課題について調べたメモです。分野を網羅しているというわけでは全くありません。 どのモデルを使うべきか?学習を行う上で大切な指標の一つは、計算効率です*。 限られたリソース(FLOP数)で最大限の学習効果を得ることが目的です。 この観点から、本記事では様々なモデルの計算効率を見ていきます。 *計算効率以外にも、推論速度や必要メモリなど、諸々の要素はあります。 Scaling lawに基づく比較Scaling lawとは?機械学習におけるスケーリング則(scaling law)とは、モデルの性能がそのサイズ、訓練データの量、または計算資源の増加に伴ってどのように変化するかを定量的に記述した法則です。 計算結果の比較モデルの学習効率を見るにあたって、FLOPsあたりの誤差を見ていくことが重要と言えます。 モデル毎に効率を