(以下は Transformer を理解している必要がありますので、まだの方はスキップしていただいても構いません) まずは、単語の位置情報を表す Positional Encoding です。 もとの Transformer と同じで、単語の埋め込み表現に位置情報を足します。 $$\begin{align} h_0 = UW_e + W_p \end{align}$$ \(W_e\)が単語の埋め込み表現の行列、\(W_p\)が位置情報を埋め込む行列です。 ただし、GPTでは、\(W_p\) はオリジナルの Transformer の論文のように \(\sin\)・\(\cos\) を使った方法ではなく、\(W_p\) もデータから学習します。 次のレイヤーですが、Transformer と言っても、ここでは encoder-decoder を使った Transformer ではなく、dec