MP3ファイルをダウンロード 内容紹介 ストックマークの近江さんをゲストに、大規模言語モデルをゼロから作る方法、学習のデータセット、モデルアーキテクチャ、学習環境への取り組みなどについて語っていただきました。 出演者 話したネタ どのような大規模言語モデルと作ったのか?特徴は何か? データセットに何を使ったのか? 日本語と英語とのバランスは? 最終的なToken数は? 事前学習モデルを作りたいとして、何から考えるのか? ノイズのクリーニングと、その方法 今回活用したモデルアーキテクチャ(Llama) 前回のアーキテクチャは GPT-NeoX 今回の学習環境は? AWS Trainum 32コア x 16ノード 学習にかかった時間は? 学習時に大変だったこと・上手くいかなかったことは? 学習中のチェックポイントとは何か? なぜ、Token生成が速いのか? 手元でLLMを動かすときの一番のネッ