なんの話かと言うと 最近、大規模言語モデルを用いたチャットシステムがよく話題になりますが、言語モデルの性能が大きく向上するきっかけとなったのが、下記の論文で公表された「Transformer」のアーキテクチャーです。 arxiv.org ここでは、JAX/Flax を用いて Transformer を実装しながら、その仕組みを解説していきます。このパート1では、Embedding レイヤーを解説します。 JAX/Flax の使い方を学びたいという方は、こちらの書籍を参照してください。 JAX/Flaxで学ぶディープラーニングの仕組み 作者:中井悦司マイナビ出版Amazon Transformer の全体像 冒頭の論文では、Transformer Encoder と Transformer Decoder を組み合わせた下記のモデルが説明されています。 左側の Encoder でテキストを解