エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
LLMのアーキテクチャ、事前学習周りの論文メモ
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 問題... Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 問題意識 MoEは翻訳タスクで注目すべき成功をおさめたが複雑さや通信コスト、学習の不安定さなどで広い適用が妨げられている。本論文では従来よりも簡素化されたSwitch Transformerアーキテクチャを提案。 本論文のアプローチ 各トークンをルーティングして割り当てるExpertの数をこれまでの先行研究の2以上から1(Single Expert)へ変更(Switch layer)。ルーティングの計算コストを削減し、各Expertのバッチサイズを少なくとも半分にできる(Expert Capacityが上がる。Capacityを超えるとオーバーフローであふれたトークンは計算がスキップされるため重要)。 Ex