3つの要点 ✔️ ViTは、すべての層でより均一な表現(特徴量)を持っている。つまり各層での表現が似ている。 ✔️ ViTは、自己注意(self-attention)により早期にグローバルな情報を集約できる。 ✔️ ViTは、表現を下位層から上位層へ強く伝搬させる。 Do Vision Transformers See Like Convolutional Neural Networks? written by Maithra Raghu, Thomas Unterthiner, Simon Kornblith, Chiyuan Zhang, Alexey Dosovitskiy (Submitted on 19 Aug 2021 (v1), last revised 3 Mar 2022 (this version, v2)) Comments: Published on arxiv.