3つの要点 ✔️ Transformerのアーキテクチャを変更してMLPのみを使用 ✔️ Attentionがさほど重要な要素ではないことが判明 ✔️ 現在のtransformerよりも優れた性能、または同等の性能を発揮 Pay Attention to MLPs written by Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le (Submitted on 17 May 2021 (v1), last revised 1 Jun 2021 (this version, v2)) Comments: Accepted by arxiv. Subjects: Machine Learning (cs.LG); Computation and Language (cs.CL); Computer Vision and Pattern Reco