NVIDIAとMicrosoftは、巨大な自然言語生成モデル「Megatron-Turing Natural Language Generation(MT-NLG)」を共同で開発した。両社によれば、このモデルは「これまでにトレーニングされた中で、最も強力な単体のトランスフォーマー言語モデル」だという。 この言語モデルは105層で、5300億のパラメーターを持ち、実行するにはNVIDIAの「Selene」のような、大規模なスーパーコンピューターハードウェアを必要とする。 有名な言語モデル「GPT-3」のパラメーター数は1750億だった。 このモデルは、3390億のトークンを含む15のデータセットでトレーニングされたもので、大規模なモデルでも少ないトレーニング量でうまく動作することを証明した。 ただし、現実世界の言語やサンプルを使って学習する必要があるという点は変わらず、このモデルも、AIが古