MP3ファイルをダウンロード 内容紹介 ストックマークの近江さんをゲストに、大規模言語モデルをゼロから作る方法、学習のデータセット、モデルアーキテクチャ、学習環境への取り組みなどについて語っていただきました。 出演者 話したネタ どのような大規模言語モデルと作ったのか?特徴は何か? データセットに何を使ったのか? 日本語と英語とのバランスは? 最終的なToken数は? 事前学習モデルを作りたいとして、何から考えるのか? ノイズのクリーニングと、その方法 今回活用したモデルアーキテクチャ(Llama) 前回のアーキテクチャは GPT-NeoX 今回の学習環境は? AWS Trainum 32コア x 16ノード 学習にかかった時間は? 学習時に大変だったこと・上手くいかなかったことは? 学習中のチェックポイントとは何か? なぜ、Token生成が速いのか? 手元でLLMを動かすときの一番のネッ
![107. LLMをゼロから作るということ w/ Takahiro Omi | fukabori.fm](https://cdn-ak-scissors.b.st-hatena.com/image/square/2baf464655c1dedef672c1a9719c0c2a4faeb509/height=288;version=1;width=512/https%3A%2F%2Ffukabori.fm%2Fimages%2Fogp.jpg)