LLMのアーキテクチャ、事前学習周りの論文メモ

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/atfujita

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

LLMのアーキテクチャ、事前学習周りの論文メモ

Switch Transf ormers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 問題... Switch Transf ormers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 問題意識 MoEは翻訳タスクで注目すべき成功をおさめたが複雑さや通信コスト、学習の不安定さなどで広い適用が妨げられている。本論文では従来よりも簡素化されたSwitch Transf ormerアーキテクチャを提案。本論文のアプローチ各トークンをルーティングして割り当てるExpertの数をこれまでの先行研究の2以上から1（Single Expert）へ変更（Switch layer）。ルーティングの計算コストを削減し、各Expertのバッチサイズを少なくとも半分にできる（Expert Capacityが上がる。Capacityを超えるとオーバーフローであふれたトークンは計算がスキップされるため重要）。 Ex

ブックマークしたユーザー

yuiseki2024/04/03

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx