大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/turing_motors

165users がブックマークコメント

コメント

10

記事へのコメント10件

注目コメント
新着コメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1

はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@o... はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。大規模言語モデル(Large Language Model: LLM)への注目がGPT-4のリリース以降高まっていますが、LLMを作るための知見は十分に共有されているとは言い難いと個人的に感じています。 Turingでは、Vision and Language, Video and Languageなどのマルチモーダルなモデルの研究開発を行っている一環として、Megatron-DeepSpeed, GPT-NeoXなどを用いて数十Bのモデルの学習を行う知見を蓄積しています。今回はLLMの事前学習を行う際に候補となるMegatron-DeepSpeedを用いてGPT-2-7B(6.6B)の学習をどのように行うのかについて解説します。分散並列学習がどのよう

ブックマークしたユーザー

ZAORIKU2025/04/04
maim5latata2025/02/17
corner05302024/12/09
pokutuna2024/08/09
polamjag2024/08/09
jp-myk2024/05/19
sanko04082024/01/07
Tormits2024/01/05
anoworl2023/07/24
nyaocat2023/07/04
hirorinya2023/07/03
deejayroka2023/07/01
machupicchubeta2023/07/01
flying-cat2023/06/30
ibadora2023/06/30
amring2023/06/30
hasunuma06132023/06/30
misshiki2023/06/30

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx