HuggingFace Transformer を使った経験と Karpathy の実装を見たところ、モデルのパラメーターの全ての初期化を含む設定のオブジェクトがあるのが慣習になっていると私は思っています。Karpathy のレポジトリーから取ってきた下のスニペットが、数々の定数・これから作るモデルのパラメータを含む基礎的なクラスの作り方を示しています。やろうと思えば、より多くのレイヤー・最大のシーケンス長・エンベディングディメンションを加えることで、GPT-2 や GPT-3 を作るクラスの設定も簡単にできます。 class GPTConfig: attn_dropout = 0.1 embed_dropout = 0.1 ff_dropout = 0.1 def __init__( self, vocab_size, max_len, **kwargs ): self.vocab_si