本記事の対象読者: LLM(大規模言語モデル)の複雑な構造や階層を理解しているが、それをどのように組み合わせるかが分からない人 LlaMaモデルに関するすべてのオペレータとアーキテクチャ(RMSNorm、ROPE、SwiGLUの実装を含む)を一行ずつ分解します。 本記事ではhuggingfaceのライブラリを使用しておらず、すべてpytorchで実装しています。また、事前学習済みモデルも使用していません。 スタート地点は『源氏物語』の原文であり、ゴール地点はあなた自身がトレーニングした大規模モデルです。 pytorchを準備してください。GPUがなくても大丈夫です。重要なのはLLMの原理を学ぶことであり、この文章を読んだだけで新しい大規模モデルのアーキテクチャを作れるわけではありません。 本記事では、できる限り平易な言葉を使って原理を解説していきます。 序文 本記事のすべてのコードはGoo