”Attention is All You Need”というタイトルでTransformerの論文が発表されてから随分経ちます。 ただ、最近は”大事なのはSelf Attentionじゃない”といった趣旨の論文をちらほら見かけるようになってきていると感じていて、これについて自分用のメモがてらまとめてみようと思います。 出発点:Transformer Transformer Vision Transformer (ViT) Attention Attentionを使わなかったモデル MLP-Mixer MetaFormer (PoolFormer) gMLP ConvNeXt Attentionは本当に大事?に関する私見 参考文献 論文メモ 感想 出発点:Transformer まずはTransformerの構造について紹介しないと、Self Attentionが重要かどうか云々についてもわ