最新版を更新しました 原論文 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale https://openreview.net/forum?id=YicbFdNTTy 関連研究 CNN+ViTモデルの傾向【サーベイ】 https://qiita.com/wakayama_90b/items/96bf5d32b09cb0041c39 概要 画像認識分野においてConvolutional Neural Network (CNN)が多く用いられていたが,自然言語処理のTransformer以降にAttention機構を用いて画像認識分野に応用したVision Transformer(ViT)が発表された.VITは,畳み込み処理を使用しないモデルである.Transformerを使用することにより,CN
![Vision Transformerのモデル構造 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/4e8966aaa9f9b21860a51b294cff1a48ead08242/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9VmlzaW9uJTIwVHJhbnNmb3JtZXIlRTMlODElQUUlRTMlODMlQTIlRTMlODMlODclRTMlODMlQUIlRTYlQTclOEIlRTklODAlQTAmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZ0eHQtY2xpcD1lbGxpcHNpcyZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPWIyYTYyZTk2M2UyMjYxNjYxNzJlOGJkMzQ2NTNiZGE1%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTcxNiZ0eHQ9JTQwd2FrYXlhbWFfOTBiJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzImdHh0LWFsaWduPWxlZnQlMkN0b3Amcz1iNjAzYzU0NzNlN2YwYzE0NmU2MWU5Y2Y5ZjUyOWQzOQ%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D25eb83815ec0f980ed273216c7e048f2)