sangotaroのブックマーク / 2023年7月24日

大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part2

31 users
zenn.dev/turing_motors
テクノロジー

はじめに Turing 株式会社リサーチチームの藤井(@okoge_kaz)です。 Turingでは、自動運転を支える技術のひとつとして大規模言語モデル(Large Language Model: LLM)に注目しており、関連する技術の研究開発を行っています。つい先日、大規模言語モデルの事前学習を行う際に用いられることが多いmicrosoft/Megatron-DeepSpeedが大きくupdateされました。(日本時間 2023/6/13, 2023/7/21に大きな変更がありました。) 具体的には、fork元であるNVIDIA/Megatron-LMの最新の変更を取り込むことを行ったようです。セットアップ方法は以下の記事で紹介している通りで、変化はないのですが、Job Scriptの引数や、新機能を使用するためのTipsなど補足するべきことが多数存在します。そのため、今回は前回の

大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part2

はてなブックマーク

タグ

2023年7月24日のブックマーク (1件)

大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part2

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス