ブックマーク / zenn.dev/turing_motors (3)

  • 大規模言語モデル(LLM)の作り方 GPT-NeoX編 Part 1

    はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 の藤井(@okoge_kaz)です。 大規模モデルへの注目の高さを肌で感じる今日このごろですが、事前学習の知見については依然として十分に共有されているとは言い難いと個人的に感じています。 Turing株式会社では、次世代の自動運転技術を支える技術の1つとして大規模言語モデルに注目しており、独自に研究開発を行っています。今回は大規模言語モデルを学習する際、用いるライブラリ候補の1つに上がるであろうGPT-NeoXについて解説します。 以下で環境構築方法、学習を行う方法などについて詳しく解説します。 GPT-NeoXとは EleutherAIが管理しているNIDIA/Megatron-LM ベースの大規模言語モデル(Large Language Model: LLM)を学習するためのライブラリです。 Mi

    大規模言語モデル(LLM)の作り方 GPT-NeoX編 Part 1
  • 大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1

    はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。 大規模言語モデル(Large Language Model: LLM)への注目がGPT-4のリリース以降高まっていますが、LLMを作るための知見は十分に共有されているとは言い難いと個人的に感じています。 Turingでは、Vision and Language, Video and Languageなどのマルチモーダルなモデルの研究開発を行っている一環として、Megatron-DeepSpeed, GPT-NeoXなどを用いて数十Bのモデルの学習を行う知見を蓄積しています。今回はLLMの事前学習を行う際に候補となるMegatron-DeepSpeedを用いてGPT-2-7B(6.6B)の学習をどのように行うのかについて解説します。 分散並列学習がどのよう

    大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1
  • 実践!大規模言語モデル / 1000億パラメータ越えモデルを動かすには?

    こんにちは。Turing株式会社の機械学習チームでインターンをしている九州大学修士1年の岩政(@colum2131)です。 Turingは完全自動運転EVの開発をするスタートアップです。 自動運転技術において、カメラやセンサ情報は正確な制御をする上で不可欠な要素である一方、自然言語やマルチモーダルな処理が必要となる状況もしばしば存在します。特に完全自動運転車においては、音声認識によってドライバーの音声命令を認識し、リアルタイムで適切な制御を行うことや、複雑な交通状況の背景にあるコンテクストを理解させるといった要求が出てきます。そのために、「基盤モデル」と呼ばれるような、自然言語処理を含む大規模モデルの学習が必要になってくると、私たちは考えています。 そこで記事では、言語モデルの発展の流れとTuringが目指す基盤モデルの開発について紹介します! 1. 言語モデルとは? 近年の言語処理モデ

    実践!大規模言語モデル / 1000億パラメータ越えモデルを動かすには?
    gengohouse
    gengohouse 2023/03/06
    “実践!大規模言語モデル / 1000億パラメータ越えモデルを動かすには?”
  • 1